decorouz/missing_data.py

## missing_data.py
import numpy as np
import pandas as pd

rng = np.random.default_rng(1)

# Create a values from normal distribution with mean 0 and variance 1
data = rng.standard_normal((127, 5))
missing = rng.choice([0, np.nan], p=[0.7, 0.3], size=data.shape) # 30% missing data
data += missing

# Create the DataFrame
df = pd.DataFrame(data, columns=['col1', 'col2', 'col3', 'col4', 'col5'])

# Print missing in each column
for col in df.columns:
    template = f"Column '{col}' has {np.isnan(df[col]).mean():.2%} has missing values"
    print(template)
	import numpy as np
	import pandas as pd

	rng = np.random.default_rng(1)

	# Create a values from normal distribution with mean 0 and variance 1
	data = rng.standard_normal((127, 5))
	missing = rng.choice([0, np.nan], p=[0.7, 0.3], size=data.shape) # 30% missing data
	data += missing

	# Create the DataFrame
	df = pd.DataFrame(data, columns=['col1', 'col2', 'col3', 'col4', 'col5'])

	# Print missing in each column
	for col in df.columns:
	template = f"Column '{col}' has {np.isnan(df[col]).mean():.2%} has missing values"
	print(template)