-
-
Save dq-hustlecoding/608c4d56309f7e0b626d8111662fb12a to your computer and use it in GitHub Desktop.
data etl for AWS Personalize
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
def etl_user() -> None: | |
df = pd.read_sql_table("데이터베이스 테이블 이름") | |
df_selected = df.reset_index()[['user_id', 'age', 'os_device']] | |
# 이 부분에서 user_schema.json 에 정의한 내용대로 | |
# dataframe의 column 이름, type을 맞춰줘야합니다. | |
# 이후 S3에 csv 형태로 저장합니다. | |
df.to_csv(USER_S3_PATH) | |
def etl_item(): | |
df = pd.read_sql_table("데이터베이스 테이블 이름") | |
# 이 부분에서 item_schema.json 에 정의한 내용대로 | |
# dataframe의 column 이름, type을 맞춰줘야합니다. | |
# 이후 S3에 csv 형태로 저장합니다. | |
df.to_csv(ITEM_S3_PATH) | |
return item_df['item_id'].tolist() | |
def etl_event(common_list) -> None: | |
df = pd.read_sql_table("데이터베이스 테이블 이름") | |
# 이 부분에서 event_schema.json 에 정의한 내용대로 | |
# dataframe의 column 이름, type을 맞춰줘야합니다. | |
# 이후 S3에 csv 형태로 저장합니다. | |
pip_df.to_csv(EVENT_S3_PATH) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment