Skip to content

Instantly share code, notes, and snippets.

@epogrebnyak
Last active September 22, 2022 23:48
  • Star 1 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
Star You must be signed in to star a gist
Save epogrebnyak/9758be5626d4d3e04a7802c28e6a0071 to your computer and use it in GitHub Desktop.
Managing Data Science Teams
Component Role Result Some tools Concepts
1. Prepare data Data Engineer Clean dataset ETL
2. Look at it Business Analyst Descriptive statistics John Tukey: EDA (1977)
3. Model it Econometrician Predictive model ML+R/Eviews/gretl+julia
4. Visualise it Visualization engineer Nice graphs matplotlib, seaborn, bokeh, D3.js Leland Wilkinson: ggplot (1999)
5. Embed it Business Analyst Profit to business
6. Report it Presenter Appealing story Jupiter notebook
7. Make interfaces Frontend/API developper/Data Architect Accessiblity

Table built in http://truben.no/table/

See also:

1. Data Engineers:
- Parsing Team (more of Extract/Transform in ETL)
- Database Team (more of Load in ETL)
2. Frontend Team:
- web interface
- end-user API
3. Data Analysts:
- visualisation
- R/pandas notebooks

fails, an opposite of awesome
(because mistakes teach you better)

IT General

Transport


Около месяца назад (в момент сильного завала с одним своим проектом) я полистал ссылки про управление проектами в области data science «от обратного» - почему они грохаются/не взлетают, вот выжимка:

  1.  http://www.ciodive.com/news/4-reasons-why-most-data-science-projects-fail/439637/
    

Starting with the wrong questions (если стартовый вопрос «а давайте все исследуем» - его нужно уточнять) Weak stakeholder buy-in (для «веры в проект» заинтересованные лица должны план/стратегию/roadmap и прогресс по нему + возможность влиять и «настраивать проект»)

Lack of diverse expertise (нельзя поручить только айтишникам)

  1. http://dataconomy.com/2016/06/3-reasons-why-data-science-can-fail/

ЗДЕСЬ БОЛЬШЕ ПРО ВНУТРЕННИЕ ДАННЫЕ В СОБСТВЕННЫХ ПРОДУКТАХ ПРОГРАММНЫХ, НО ПРОБЛЕМЫ СФОРМУЛИРОВАНЫ ЧЕТКО:

1.SOLVING THE WRONG PROBLEM

2.MISMATCH OF PROBLEM, TECHNOLOGY AND PERSONNEL

3.DATA INTEGRITY

  1. http://www.oralytics.com/2016/08/why-data-science-projects-fail.html

Очень подробный список «болевых точек» и чеклист «зачем мы это делаем», наверное самое полное

  1. http://www.martingoodson.com/ten-ways-your-data-project-is-going-to-fail/

Рассказ в лицах про Data Scientist, дата-инженера и бизнес-аналитика. У них DS это такой методолог в области оптимизации. Издеваются над проектными менеджерами.

http://www.kdnuggets.com/2016/12/top-reasons-big-data-science-analytics-fail.html

(В целом подтверждает предыдущие списки)

По ролям / уровням анализа для нового data science проекта вижу следующее:


Планирование:

  1. Критерии успеха (задает стейкхолдер, популярность, цитируемость, и т.д.)

  2. Вопросы исследования, гипотезы, тезисы (уточняется исследователями и участниками команды)

Роли в Data Science (data scientist’ом называют любую комбинацию этих ролей c акцентом на методологию):

  1. Данные – data engineer / ETL (extract/transform/load)

  2. Дескриптивная статистика и структура данных – бизнес-аналитик

  3. Интерпретируемые модели – эконометрист

  4. Визуализация – рисует графики / инфографику (как програмирование, так и дизайн)

Результаты и распространение:

  1. Продукт – что-то что приносит пользу потребителю / стейкхолдеру

  2. Коммуникации – распространение результатов и обратная связь с аудиторией

Опционально: поддержка и развитие сайта/серии приложений под одним брендом/организацией.


Около месяца назад (в момент сильного завала с одним своим проектом) я полистал ссылки про управление проектами в области data science «от обратного» - почему они грохаются/не взлетают, вот выжимка:

  1.  http://www.ciodive.com/news/4-reasons-why-most-data-science-projects-fail/439637/
    

Starting with the wrong questions (если стартовый вопрос «а давайте все исследуем» - его нужно уточнять) Weak stakeholder buy-in (для «веры в проект» заинтересованные лица должны план/стратегию/roadmap и прогресс по нему + возможность влиять и «настраивать проект»)

Lack of diverse expertise (нельзя поручить только айтишникам)

  1. http://dataconomy.com/2016/06/3-reasons-why-data-science-can-fail/

ЗДЕСЬ БОЛЬШЕ ПРО ВНУТРЕННИЕ ДАННЫЕ В СОБСТВЕННЫХ ПРОДУКТАХ ПРОГРАММНЫХ, НО ПРОБЛЕМЫ СФОРМУЛИРОВАНЫ ЧЕТКО:

1.SOLVING THE WRONG PROBLEM

2.MISMATCH OF PROBLEM, TECHNOLOGY AND PERSONNEL

3.DATA INTEGRITY

  1. http://www.oralytics.com/2016/08/why-data-science-projects-fail.html

Очень подробный список «болевых точек» и чеклист «зачем мы это делаем», наверное самое полное

  1. http://www.martingoodson.com/ten-ways-your-data-project-is-going-to-fail/

Рассказ в лицах про Data Scientist, дата-инженера и бизнес-аналитика. У них DS это такой методолог в области оптимизации. Издеваются над проектными менеджерами.

http://www.kdnuggets.com/2016/12/top-reasons-big-data-science-analytics-fail.html

(В целом подтверждает предыдущие списки)

По ролям / уровням анализа для нового data science проекта вижу следующее:


Планирование:

  1. Критерии успеха (задает стейкхолдер, популярность, цитируемость, и т.д.)

  2. Вопросы исследования, гипотезы, тезисы (уточняется исследователями и участниками команды)

Роли в Data Science (data scientist’ом называют любую комбинацию этих ролей c акцентом на методологию):

  1. Данные – data engineer / ETL (extract/transform/load)

  2. Дескриптивная статистика и структура данных – бизнес-аналитик

  3. Интерпретируемые модели – эконометрист

  4. Визуализация – рисует графики / инфографику (как програмирование, так и дизайн)

Результаты и распространение:

  1. Продукт – что-то что приносит пользу потребителю / стейкхолдеру

  2. Коммуникации – распространение результатов и обратная связь с аудиторией

Опционально: поддержка и развитие сайта/серии приложений под одним брендом/организацией.


Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment