EdMan1022/null_categorical_variables.py

## null_categorical_variables.py
import pandas as pd
import numpy as np

df = pd.DataFrame(data=[[3., 1., np.NaN], [np.NaN, 3., 2.], [4., 1., 3.]], index=[0, 1, 2],
                  columns=['apple', 'carrot', 'pear'])


def null_only_categorical_func(data):
    """
    Take a series, and return values of 1. where the series is null
    :param data: (pandas Series) input column
    :return: (pandas Series) column of 1s for indices where data is null
    """
    cat_column = pd.Series(0., data.index)
    cat_column[(data.isnull())] = 1.
    return cat_column

cat_df = df.apply(null_only_categorical_func, axis=0)

trimmed_cat_df = cat_df.drop(cat_df.columns[cat_df.sum() == 0.], axis=1)

trimmed_cat_df.columns = trimmed_cat_df.columns + '='

output = pd.concat([df.fillna(0.), trimmed_cat_df], axis=1).sort_index(axis=1)

print(output)
	import pandas as pd
	import numpy as np

	df = pd.DataFrame(data=[[3., 1., np.NaN], [np.NaN, 3., 2.], [4., 1., 3.]], index=[0, 1, 2],
	columns=['apple', 'carrot', 'pear'])


	def null_only_categorical_func(data):
	"""
	Take a series, and return values of 1. where the series is null
	:param data: (pandas Series) input column
	:return: (pandas Series) column of 1s for indices where data is null
	"""
	cat_column = pd.Series(0., data.index)
	cat_column[(data.isnull())] = 1.
	return cat_column

	cat_df = df.apply(null_only_categorical_func, axis=0)

	trimmed_cat_df = cat_df.drop(cat_df.columns[cat_df.sum() == 0.], axis=1)

	trimmed_cat_df.columns = trimmed_cat_df.columns + '='

	output = pd.concat([df.fillna(0.), trimmed_cat_df], axis=1).sort_index(axis=1)

	print(output)