liannewriting/duplicate_data_drop.py

## duplicate_data_drop.py
# drop duplicates based on an subset of variables.

key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']
df_dedupped2 = df.drop_duplicates(subset=key)

print(df.shape)
print(df_dedupped2.shape)
	# drop duplicates based on an subset of variables.

	key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']
	df_dedupped2 = df.drop_duplicates(subset=key)

	print(df.shape)
	print(df_dedupped2.shape)