- Python: https://stepik.org/course/58852/promo
- SQL: https://stepik.org/63054
- pandas: https://stepik.org/83990 (первые два урока)
- pySpark: на рабочем месте проще всего
Длинный путь: выучить основы Python (переменные, циклы, условные выражения, функции) -> разобраться с SQL (основные операторы и способы соединения) -> разобраться с sparkSQL -> осознать описательныю статистику -> За Работу!
Короткий путь: открыть курс по SQL (пройти базовые уроки) -> пройти пару уроков с пандас -> прочувствовать разницу -> забрать jupyter ноутбучок с базовыми запросами -> За работу! (обязательно вернуться к длинному пути по завершении маршрута)
Ноутбучки для работы можно найти в рабочем конфлюенсе
- Если не понимаете как работает код, заходите на сайт и смотрите на картинки: https://pythontutor.com
- Справочник по спарку (самый практичный): "Writing Beautiful Apache Spark Code" Matthew Powers
- "Статистика и котики" Савельев Владимир