ramhiser/dataframe_multiindex_columns.py

## dataframe_multiindex_columns.py
import numpy as np
import pandas as pd
from itertools import chain, izip, repeat

np.random.seed(42)
num_rows = 10
num_features = 5
num_feature_values = 3

# Builds tuples of features with many values per feature
features = ['Feature' + str(i) for i in range(num_features)]
feature_values = ['Value' + str(i) for i in range(num_feature_values)]
features_list = list(chain(*izip(*repeat(features, num_feature_values))))
feature_values_list = feature_values * num_features
feature_tuples = zip(features_list, feature_values_list)

index = pd.MultiIndex.from_tuples(feature_tuples)
df = 0.1 * np.random.randn(num_rows, num_features * num_feature_values) + 0.5
df = pd.DataFrame(df, columns=index)
df.head()

## simpler_approach.py
# The following is a much simpler approach.
# Uses MultiIndex.from_product.
import numpy as np
import pandas as pd

np.random.seed(42)
num_rows = 10
num_features = 5
num_feature_values = 3

features = ['Feature' + str(i) for i in range(num_features)]
feature_values = ['Value' + str(i) for i in range(num_feature_values)]

index = pd.MultiIndex.from_product([features, feature_values])
df = 0.1 * np.random.randn(num_rows, num_features * num_feature_values) + 0.5
df = pd.DataFrame(df, columns=index)
df.head()
	import numpy as np
	import pandas as pd
	from itertools import chain, izip, repeat

	np.random.seed(42)
	num_rows = 10
	num_features = 5
	num_feature_values = 3

	# Builds tuples of features with many values per feature
	features = ['Feature' + str(i) for i in range(num_features)]
	feature_values = ['Value' + str(i) for i in range(num_feature_values)]
	features_list = list(chain(izip(repeat(features, num_feature_values))))
	feature_values_list = feature_values * num_features
	feature_tuples = zip(features_list, feature_values_list)

	index = pd.MultiIndex.from_tuples(feature_tuples)
	df = 0.1 * np.random.randn(num_rows, num_features * num_feature_values) + 0.5
	df = pd.DataFrame(df, columns=index)
	df.head()
	# The following is a much simpler approach.
	# Uses MultiIndex.from_product.
	import numpy as np
	import pandas as pd

	np.random.seed(42)
	num_rows = 10
	num_features = 5
	num_feature_values = 3

	features = ['Feature' + str(i) for i in range(num_features)]
	feature_values = ['Value' + str(i) for i in range(num_feature_values)]

	index = pd.MultiIndex.from_product([features, feature_values])
	df = 0.1 * np.random.randn(num_rows, num_features * num_feature_values) + 0.5
	df = pd.DataFrame(df, columns=index)
	df.head()