this-is-richard/handle_missing_values.py

## handle_missing_values.py
# timeseries data
df[col] = df[col].interpolate

# independent feats, numerical label
df.dropna(how='any', inplace=True)

# categorical feats
groupby_label = df.groupby(label)
print(groupby_label.mean())
print(df.mean())
if the_means_are_label_dependent:
  # use group level average to fill na
  df[feat1] = groupby_label[feat1].transform(lambda x: x.fillna(x.mean()))
  df[feat2] = groupby_label[feat2].transform(lambda x: x.fillna(x.mean()))
  df[feat3] = groupby_label[feat3].transform(lambda x: x.fillna(x.mean()))
	# timeseries data
	df[col] = df[col].interpolate

	# independent feats, numerical label
	df.dropna(how='any', inplace=True)

	# categorical feats
	groupby_label = df.groupby(label)
	print(groupby_label.mean())
	print(df.mean())
	if the_means_are_label_dependent:
	# use group level average to fill na
	df[feat1] = groupby_label[feat1].transform(lambda x: x.fillna(x.mean()))
	df[feat2] = groupby_label[feat2].transform(lambda x: x.fillna(x.mean()))
	df[feat3] = groupby_label[feat3].transform(lambda x: x.fillna(x.mean()))