ahmedshahriar/detect_missing_values.py

## detect_missing_values.py
# data - pandas dataframe
def missing_value_describe(data):
    # check missing values in the data
    total = data.isna().sum().sort_values(ascending=False)
    missing_value_pct_stats = (data.isnull().sum() / len(data)*100)
    missing_value_col_count = sum(missing_value_pct_stats > 0)

    # missing_value_stats = missing_value_pct_stats.sort_values(ascending=False)[:missing_value_col_count]
    missing_data = pd.concat([total, missing_value_pct_stats], axis=1, keys=['Total', 'Percent'])

    print("Number of rows with at least 1 missing values:", data.isna().any(axis = 1).sum())
    print("Number of columns with missing values:", missing_value_col_count)

    if missing_value_col_count != 0:
        # print out column names with missing value percentage
        print("\nMissing percentage (desceding):")
        display(missing_data[:missing_value_col_count])

        # plot missing values
        missing = data.isnull().sum()
        missing = missing[missing > 0]
        missing.sort_values(inplace=True)
        missing.plot.bar()
    else:
        print("No missing data!!!")

# pass a dataframe to the function
missing_value_describe(df)

## remove_duplicate.py
# Removes Data Duplicates while Retaining the First one
def remove_duplicate(data):
    data.drop_duplicates(keep="first", inplace=True)
    return "Checked Duplicates"

# Removes Duplicates from train data
remove_duplicate(train)
	# data - pandas dataframe
	def missing_value_describe(data):
	# check missing values in the data
	total = data.isna().sum().sort_values(ascending=False)
	missing_value_pct_stats = (data.isnull().sum() / len(data)*100)
	missing_value_col_count = sum(missing_value_pct_stats > 0)

	# missing_value_stats = missing_value_pct_stats.sort_values(ascending=False)[:missing_value_col_count]
	missing_data = pd.concat([total, missing_value_pct_stats], axis=1, keys=['Total', 'Percent'])

	print("Number of rows with at least 1 missing values:", data.isna().any(axis = 1).sum())
	print("Number of columns with missing values:", missing_value_col_count)

	if missing_value_col_count != 0:
	# print out column names with missing value percentage
	print("\nMissing percentage (desceding):")
	display(missing_data[:missing_value_col_count])

	# plot missing values
	missing = data.isnull().sum()
	missing = missing[missing > 0]
	missing.sort_values(inplace=True)
	missing.plot.bar()
	else:
	print("No missing data!!!")

	# pass a dataframe to the function
	missing_value_describe(df)
	# Removes Data Duplicates while Retaining the First one
	def remove_duplicate(data):
	data.drop_duplicates(keep="first", inplace=True)
	return "Checked Duplicates"

	# Removes Duplicates from train data
	remove_duplicate(train)