Skip to content

Instantly share code, notes, and snippets.

@dq-hustlecoding
Last active December 2, 2021 08:13
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save dq-hustlecoding/608c4d56309f7e0b626d8111662fb12a to your computer and use it in GitHub Desktop.
Save dq-hustlecoding/608c4d56309f7e0b626d8111662fb12a to your computer and use it in GitHub Desktop.
data etl for AWS Personalize
def etl_user() -> None:
df = pd.read_sql_table("데이터베이스 테이블 이름")
df_selected = df.reset_index()[['user_id', 'age', 'os_device']]
# 이 부분에서 user_schema.json 에 정의한 내용대로
# dataframe의 column 이름, type을 맞춰줘야합니다.
# 이후 S3에 csv 형태로 저장합니다.
df.to_csv(USER_S3_PATH)
def etl_item():
df = pd.read_sql_table("데이터베이스 테이블 이름")
# 이 부분에서 item_schema.json 에 정의한 내용대로
# dataframe의 column 이름, type을 맞춰줘야합니다.
# 이후 S3에 csv 형태로 저장합니다.
df.to_csv(ITEM_S3_PATH)
return item_df['item_id'].tolist()
def etl_event(common_list) -> None:
df = pd.read_sql_table("데이터베이스 테이블 이름")
# 이 부분에서 event_schema.json 에 정의한 내용대로
# dataframe의 column 이름, type을 맞춰줘야합니다.
# 이후 S3에 csv 형태로 저장합니다.
pip_df.to_csv(EVENT_S3_PATH)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment