Skip to content

Instantly share code, notes, and snippets.

@SDRLurker
Created November 29, 2020 07:31
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save SDRLurker/e822c849657821ab4bd7d275e1901d12 to your computer and use it in GitHub Desktop.
Save SDRLurker/e822c849657821ab4bd7d275e1901d12 to your computer and use it in GitHub Desktop.

[스터디/2기] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

프로그래머스

https://programmers.co.kr/learn/courses/10716

  • 1주차 : 데이터 팀이란 무엇이고, 어떻게 구성되며, 어떤 역할을 하는가?

    • 데이터 팀의 구성과 역할에 대한 이해
    • 데이터 팀에서 데이터 엔지니어의 역할은
  • 2주차 : 데이터 웨어하우스(Data Warehouse)

    • 데이터 엔지니어의 일주일 in 실리콘밸리
    • 실습환경 소개 (AWS & Docker)
    • 데이터 웨어하우스 만들기
    • [과제] Python을 활용한 Redshift access
  • 3주차 : 데이터 엔지니어링을 위한 SQL

    • SQL 소개
    • 고급 SQL
    • [과제] 조금 더 복잡도가 높은 실제 현업 데이터를 토대로 앞서 실습했던 metrics들을 계산해보기
  • 4주차 : ETL(Extract, Transform and Load) 작성하기

  • 5주차 : Airflow 심화학습

    • Airflow 기반 ETL 작성(1)
    • Airflow 기반 ETL 작성(2) : Summary table 만들기
    • [과제] Bulk Update Sequence - COPY SQL
      1. Data source(Postgres)에서 테이블을 읽기
      2. 주기적으로 입력 파일을 S3에 업로드
      3. Bulk Insert
  • 6주차 : 대시 보드 만들기 및 과정 총 정리

    • 대시보드(Superset) 만들기
    • 과정 정리
  • 7주차 : 클로징세션

    • 데이터 엔지니어링과 관련한 자유로운 질문
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment