Skip to content

Instantly share code, notes, and snippets.

@sicongzhao
Last active June 4, 2019 20:05
Show Gist options
  • Save sicongzhao/7268e77b0e725f08e4d2f1c8be5a0171 to your computer and use it in GitHub Desktop.
Save sicongzhao/7268e77b0e725f08e4d2f1c8be5a0171 to your computer and use it in GitHub Desktop.
Data Science Tutorial for Undergrads

Data Science for Undergrads

在存储提升,计算速度提升的今天,各行各业都开始注重数据的价值。科技公司如Google,Facebook,Amazon,Airbnb,Uber都组建了数据团队,探索如何利用数据来提升业务效率、优化产品体验、提升营收。数据越来越重要,而且基于其“工具”属性,科学的数据分析方法可以方便地应用到不同行业、不同岗位的日常工作决策中。无论你对自己有怎样的职业规划,学习数据分析都会帮助你做出更正确的决策,帮助你提升职业发展的上限。

那么,如何才能学好数据分析?答案很简单,通过恰当的训练人人都可以掌握数据分析的能力,并且应用在工作、生活中。

本教程的宗旨是为读者提供零基础的Data Science入门教程,通过本教程掌握基本的数据分析方法。帮助读者建立一套完整的数据分析能力,从拿到数据如何下手,到如何建立模型、建立什么样的模型,再到如何与实际工作中的项目结合。

本教程分为三部分:1.Exploratory Data Analysis(数据探索)2.Modeling & Analysis(数据建模&分析) 3.Application & Case Analysis(真实案例分析)。

目录

Part.1 Exploratory Data Analysis (数据探索)

这是Data Science Project的第一步,也是所有Data Scientist拿到数据都会做的第一件事情。这一部分主要讲解当你拿到数据之后应该做哪些操作,如何开始处理数据。

通过学习第一部分,我们可以习得获取数据的特征的方法,了解数据本身有哪些缺陷,以及如何处理这些缺陷。在实际工作中,几乎没有完美的数据集,所以我们往往需要通过一些预处理来提高数据的可用性。

接下来,我们会介绍如何观察数据,如何可视化数据。通过这些对数据的探索,我们会展示如何建立一些猜想(hypothesis),从而为下一步的工作 (Part.2 Modeling & Analysis 数据建模 & 分析) 打下基础。作为数据科学家,我们的工作的首要核心,往往是通过证实或者证伪一些假说,来榨取数据中隐藏的信息价值。

子目录

  • Part.1.A Libraries Introduction (常用工具介绍)
  • Part.1.B Data Loading & Summary (数据导入 & 概况)
  • Part.1.C Data Formatting (数据格式转化)
  • Part.1.D Data Visualization (数据可视化)
  • Part.1.E Abnormal Data Detection and Manipulation (异常数据的检测和处理)
  • Part.1.F Missing Data Detection & Imputation (缺失数据检测 & 填充)
  • Part.1.G Data Manipulation Methods (数据处理基础)
  • Part.1.H Feature Engineering (特征构建)

Part.2 Modeling & Analysis (数据建模&分析)

当我们准备好数据集,建立了自己的假说(hypothesis)之后,我们就需要通过一些方法来证明这些假说。

第二部分我们会先从思路的角度出发,与读者探讨为何需要“建模”,这种方法的价值和意义是什么。帮助读者理解,决策的本质是分类和预测,而建立模型是帮助我们对数据进行分类或者预测的一种通用方法。

当建立了基本概念之后,我们就开始进入具体的模型讲解。本章我们介绍三种最常用的模型:Linear Regression (线性回归模型), Logistic Regression (逻辑回归模型) 和 Multinomial Logistic Regression (多项逻辑回归模型)。我们会提供真实的数据分析案例,来帮助读者理解各个模型的适用场景和适用方法。

子目录

  • Part.2.A What is Modeling and Why We Need It (建模思路入门)
  • Part.2.B Linear Regression Methods & Practice (线性回归模型及应用)
  • part.2.C Logistic Regression Methods & Practice (逻辑回归模型及应用)
  • Part.2.D Multinomial Logistic Regression Methods & Practice (多项逻辑回归模型及应用)

Part.3 Application & Case Analysis (真实案例分析)

通过前两章的学习,我们已经具备了Data Science所需的基本技能。第三章我们会提供更复杂的真实案例,将前两章的内容整合一体,融会贯通的应用在这些案例里面。

通过真实案例的展示,我们希望: (1)帮助读者进一步了解、巩固Data Science的基本技能。 (2)帮助读者建立自己的Data Science Project Pipeline。 (3)帮助读者提升将Data Science Skill应用在真实项目中的能力。

子目录

  • Part.3.A New York Taxi Data Analysis (纽约出租数据分析)
  • Part.3.B Handwritten Numbers Recognition (手写数字识别)
  • Part.3.C San Francisco Housing Price Prediction (旧金山房价预测)

(具体案例我还在看,找对应的可用数据,所以有可能会变动。但是大体思路不变:利用前两章的讲解的知识,不会有超纲内容。案例与现实生活紧密结合。)

Potential Dataset:

  1. NBA Final Stats NBA数据可以捕获一些男生,这个数据集很简单适合初学者。 https://data.world/datatouille/nba-finals-and-mvps#
  2. Last Words 临终遗言(sentiment analysis),临终前大家都在说啥。 https://www.kaggle.com/mykhe1097/last-words-of-death-row-inmates
  3. European Soccer Database 欧洲足球联赛数据,这个数据集有点大,用起来需要裁剪。https://www.kaggle.com/hugomathien/soccer/kernels
  4. Stack Overflow 2018 Developer Survey 很大的数据集,还在找有什么有趣的结论。 https://www.kaggle.com/stackoverflow/stack-overflow-2018-developer-survey/kernels
  5. Art Images: Drawing/Painting/Sculptures/Engravings 五种风格的画,可以用算法做图像风格的分类。 https://www.kaggle.com/thedownhill/art-images-drawings-painting-sculpture-engraving/kernels
  6. Los Angeles Metro Bike Share Trip Data LA共享单车 https://www.kaggle.com/cityofLA/los-angeles-metro-bike-share-trip-data/kernels
  7. SF Restaurant Scores - LIVES Standard https://www.kaggle.com/san-francisco/sf-restaurant-scores-lives-standard
  8. NBA数据 - The similarity among players (classification), the prediction of next season's stats, the prediction of next year's Champion. Data source: https://github.com/swar/nba_api Not eligible for commercial use.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment