liannewriting/missing_data_imputation3.py

## missing_data_imputation3.py
# impute the missing values and create the missing value indicator variables for each non-numeric column.
df_non_numeric = df.select_dtypes(exclude=[np.number])
non_numeric_cols = df_non_numeric.columns.values

for col in non_numeric_cols:
    missing = df[col].isnull()
    num_missing = np.sum(missing)

    if num_missing > 0:  # only do the imputation for the columns that have missing values.
        print('imputing missing values for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing

        top = df[col].describe()['top'] # impute with the most frequent value.
        df[col] = df[col].fillna(top)
	# impute the missing values and create the missing value indicator variables for each non-numeric column.
	df_non_numeric = df.select_dtypes(exclude=[np.number])
	non_numeric_cols = df_non_numeric.columns.values

	for col in non_numeric_cols:
	missing = df[col].isnull()
	num_missing = np.sum(missing)

	if num_missing > 0: # only do the imputation for the columns that have missing values.
	print('imputing missing values for: {}'.format(col))
	df['{}_ismissing'.format(col)] = missing

	top = df[col].describe()['top'] # impute with the most frequent value.
	df[col] = df[col].fillna(top)