sicongzhao/data-science-for-undergrads.md

## data-science-for-undergrads.md

      
    Raw
  

              data-science-for-undergrads.md
            
          
    Data Science for Undergrads

在存储提升，计算速度提升的今天，各行各业都开始注重数据的价值。科技公司如Google，Facebook，Amazon，Airbnb，Uber都组建了数据团队，探索如何利用数据来提升业务效率、优化产品体验、提升营收。数据越来越重要，而且基于其“工具”属性，科学的数据分析方法可以方便地应用到不同行业、不同岗位的日常工作决策中。无论你对自己有怎样的职业规划，学习数据分析都会帮助你做出更正确的决策，帮助你提升职业发展的上限。
那么，如何才能学好数据分析？答案很简单，通过恰当的训练人人都可以掌握数据分析的能力，并且应用在工作、生活中。
本教程的宗旨是为读者提供零基础的Data Science入门教程，通过本教程掌握基本的数据分析方法。帮助读者建立一套完整的数据分析能力，从拿到数据如何下手，到如何建立模型、建立什么样的模型，再到如何与实际工作中的项目结合。
本教程分为三部分：1.Exploratory Data Analysis（数据探索）2.Modeling & Analysis（数据建模&分析） 3.Application & Case Analysis（真实案例分析）。
目录

Part.1 Exploratory Data Analysis (数据探索)


这是Data Science Project的第一步，也是所有Data Scientist拿到数据都会做的第一件事情。这一部分主要讲解当你拿到数据之后应该做哪些操作，如何开始处理数据。
通过学习第一部分，我们可以习得获取数据的特征的方法，了解数据本身有哪些缺陷，以及如何处理这些缺陷。在实际工作中，几乎没有完美的数据集，所以我们往往需要通过一些预处理来提高数据的可用性。
接下来，我们会介绍如何观察数据，如何可视化数据。通过这些对数据的探索，我们会展示如何建立一些猜想（hypothesis），从而为下一步的工作 (Part.2 Modeling & Analysis 数据建模 & 分析) 打下基础。作为数据科学家，我们的工作的首要核心，往往是通过证实或者证伪一些假说，来榨取数据中隐藏的信息价值。

子目录

Part.1.A Libraries Introduction (常用工具介绍)
Part.1.B Data Loading & Summary (数据导入 & 概况)
Part.1.C Data Formatting (数据格式转化)
Part.1.D Data Visualization (数据可视化)
Part.1.E Abnormal Data Detection and Manipulation (异常数据的检测和处理)
Part.1.F Missing Data Detection & Imputation (缺失数据检测 & 填充)
Part.1.G Data Manipulation Methods (数据处理基础)
Part.1.H Feature Engineering (特征构建)

Part.2 Modeling & Analysis (数据建模&分析)


当我们准备好数据集，建立了自己的假说（hypothesis）之后，我们就需要通过一些方法来证明这些假说。
第二部分我们会先从思路的角度出发，与读者探讨为何需要“建模”，这种方法的价值和意义是什么。帮助读者理解，决策的本质是分类和预测，而建立模型是帮助我们对数据进行分类或者预测的一种通用方法。
当建立了基本概念之后，我们就开始进入具体的模型讲解。本章我们介绍三种最常用的模型：Linear Regression (线性回归模型), Logistic Regression (逻辑回归模型) 和 Multinomial Logistic Regression (多项逻辑回归模型)。我们会提供真实的数据分析案例，来帮助读者理解各个模型的适用场景和适用方法。

子目录

Part.2.A What is Modeling and Why We Need It (建模思路入门)
Part.2.B Linear Regression Methods & Practice (线性回归模型及应用)
part.2.C Logistic Regression Methods & Practice (逻辑回归模型及应用)
Part.2.D Multinomial Logistic Regression Methods & Practice (多项逻辑回归模型及应用)

Part.3 Application & Case Analysis (真实案例分析)


通过前两章的学习，我们已经具备了Data Science所需的基本技能。第三章我们会提供更复杂的真实案例，将前两章的内容整合一体，融会贯通的应用在这些案例里面。
通过真实案例的展示，我们希望：
(1)帮助读者进一步了解、巩固Data Science的基本技能。
(2)帮助读者建立自己的Data Science Project Pipeline。
(3)帮助读者提升将Data Science Skill应用在真实项目中的能力。

子目录

Part.3.A New York Taxi Data Analysis (纽约出租数据分析)
Part.3.B Handwritten Numbers Recognition (手写数字识别)
Part.3.C San Francisco Housing Price Prediction (旧金山房价预测)


(具体案例我还在看，找对应的可用数据，所以有可能会变动。但是大体思路不变：利用前两章的讲解的知识，不会有超纲内容。案例与现实生活紧密结合。)

Potential Dataset:


NBA Final Stats NBA数据可以捕获一些男生，这个数据集很简单适合初学者。 https://data.world/datatouille/nba-finals-and-mvps#
Last Words 临终遗言(sentiment analysis)，临终前大家都在说啥。 https://www.kaggle.com/mykhe1097/last-words-of-death-row-inmates
European Soccer Database 欧洲足球联赛数据，这个数据集有点大，用起来需要裁剪。https://www.kaggle.com/hugomathien/soccer/kernels
Stack Overflow 2018 Developer Survey 很大的数据集，还在找有什么有趣的结论。 https://www.kaggle.com/stackoverflow/stack-overflow-2018-developer-survey/kernels
Art Images: Drawing/Painting/Sculptures/Engravings 五种风格的画，可以用算法做图像风格的分类。 https://www.kaggle.com/thedownhill/art-images-drawings-painting-sculpture-engraving/kernels
Los Angeles Metro Bike Share Trip Data LA共享单车 https://www.kaggle.com/cityofLA/los-angeles-metro-bike-share-trip-data/kernels
SF Restaurant Scores - LIVES Standard https://www.kaggle.com/san-francisco/sf-restaurant-scores-lives-standard
NBA数据 - The similarity among players (classification), the prediction of next season's stats, the prediction of next year's Champion. Data source: https://github.com/swar/nba_api Not eligible for commercial use.