wingkwong/remove-duplicate-records.py

## remove-duplicate-records.py
import pandas as pd

d = pd.read_csv('CSV_FILE.csv', keep_default_na = False)
d.drop_duplicates(subset = ['COMPOSITE_KEY1', 'COMPOSITE_KEY2', 'COMPOSITE_KEY3', 'COMPOSITE_KEY4', 'COMPOSITE_KEY5', 'COMPOSITE_KEY6', 'COMPOSITE_KEY7', 'COMPOSITE_KEY8', 'COMPOSITE_KEY9', 'COMPOSITE_KEY10'], inplace = True, keep = 'first')
d.to_csv('CSV_FILE_PROCESSED.csv', index = False)