broschke/random_data.py

## random_data.py
import numpy as np
import pandas as pd
import datetime

# capture current week and same week last year
date_list = []

date = datetime.datetime.now().date()
for i in range(7):
    date_list.append(date - datetime.timedelta(days=i))
    date_list.append((date - datetime.timedelta(days=364)) - datetime.timedelta(days=i))

# create date dict
date_dict = {'date': date_list}

# create brand and chain scale dict for company data
brand = {'brand':
            ['Brand_1', 'Brand_2', 'Brand_3', 'Brand_4', 'Brand_5',
              'Brand_6', 'Brand_7', 'Brand_8', 'Brand_9', 'Brand_10'],
		 'chain_scale':
             ['Upper Midscale', 'Midscale', 'Midscale', 'Economy', 'Midscale',
              'Economy', 'Upper Midscale', 'Upscale', 'Upscale', 'Economy']
        }


# create market type dict
market_type = {'market_type': ['Resort', 'Airport', 'Urban', 'Interstate', 'Small Town', 'Suburban']}

# create state and distric of columbia dict
state = {'state':
            ['AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL',
             'GA', 'HI', 'IA', 'ID', 'IL', 'IN', 'KS', 'KY', 'LA', 'MA',
             'MD', 'ME', 'MI', 'MN', 'MO', 'MS', 'MT', 'NC', 'ND', 'NE',
             'NH', 'NJ', 'NM', 'NV', 'NY', 'OH', 'OK', 'OR', 'PA', 'RI',
             'SC', 'SD', 'TN', 'TX', 'UT', 'VA', 'VT', 'WA', 'WI', 'WV', 'WY']
          }

# create chain scale dict for industry data
chain_scale = {'chain_scale': ['Upscale', 'Upper Middle', 'Midscale', 'Economy']}


def census(state):
	'''Assigns census division based on State value.'''

	if (state in ['IL', 'IN', 'MI', 'OH', 'WI']):
		return 'East North Central'
	if (state in ['AL', 'KY', 'MS', 'TN']):
		return 'East South Central'
	if (state in ['NJ', 'NY', 'PA']):
		return 'Middle Atlantic'
	if (state in ['AZ', 'CO', 'ID', 'MT', 'NM', 'NV', 'UT', 'WY']):
		return 'Mountain'
	if (state in ['CT', 'MA', 'ME', 'NH', 'RI', 'VT']):
		return 'New England'
	if (state in ['AK', 'CA', 'HI', 'OR', 'WA']):
		return 'Pacific'
	if (state in ['DC', 'DE', 'FL', 'GA', 'MD', 'NC', 'SC', 'VA', 'WV']):
		return 'South Atlantic'
	if (state in ['IA', 'KS', 'MN', 'MO', 'ND', 'NE', 'SD']):
		return 'West North Central'
	if (state in ['AR', 'LA', 'OK', 'TX']):
		return 'West South Central'


def merge_frames(df1, df2):
	'''
	Used to create a cartesian product of two dataframes
	Parameters:
		:param df1: (Pandas df) df1
		:param df2: (Pandas df) df2

	Returns:
		:returns: (Pandas df) df
	'''
	df1['tmp'] = '1'
	df2['tmp'] = '1'
	df = df1.merge(df2, on='tmp')
	df = df.drop('tmp', axis=1)
	return df


def random_data(df, rand_type, min, max):
	"""
	Used to generate random values to fill dataframe column.
	Parameters:
		:param df: (Pandas df) df
		:param rand_type: np.random.randint for intergers or np.random.uniform for float
		:min: Minimum value of random data
		:max: Maximum value of random data

	Returns:
		:returns: (Pandas column)
	"""
	if rand_type == 'randint':
		col = np.random.randint(min, max, size=len(df))
	else:
		col = np.random.uniform(low=min, high=max, size=len(df))
	return col


# assemble dataframes
df_ind = pd.DataFrame({'brand': ['Industry']})
df_ind_cs = pd.DataFrame(chain_scale)
df_brand = pd.DataFrame(brand)
df_state = pd.DataFrame(state)
df_date = pd.DataFrame(date_dict)
df_market = pd.DataFrame(market_type)

#create cartesian industry frame
df_industry = merge_frames(df_ind, df_ind_cs)
df_industry = merge_frames(df_industry, df_date)
df_industry['source'] = 'industry'

#create cartesian company frame
df_company = merge_frames(df_brand, df_state)
df_company = merge_frames(df_company, df_date)
df_company = merge_frames(df_company, df_market)
df_company['source'] = 'choice'

#create cartesian company frame
df_compset = merge_frames(df_brand, df_state)
df_compset = merge_frames(df_compset, df_date)
df_compset = merge_frames(df_compset, df_market)
df_compset['source'] = 'compset'

#apply census function to company and compset frame
df_company['census_division'] = df_company['state'].apply(census)
df_compset['census_division'] = df_compset['state'].apply(census)

#create random values for revenue, demand and supply for company data
df_company['revenue'] = random_data(df_company, 'randint', 5000, 10000)
df_company['supply'] = random_data(df_company, 'randint', 50, 100)
df_company['demand_multiplier'] = random_data(df_company, 'uniform', 0.3, 1)
df_company['demand'] = (df_company.supply * df_company.demand_multiplier).round(0)

#create random values for revenue, demand and supply for compset data
df_compset['revenue'] = random_data(df_compset, 'randint', 5000, 10000)
df_compset['supply'] = random_data(df_compset, 'randint', 50, 100)
df_compset['demand_multiplier'] = random_data(df_compset, 'uniform', 0.3, 1)
df_compset['demand'] = (df_compset.supply * df_compset.demand_multiplier).round(0)

#create random values for revenue, demand and supply for industry data
df_industry['revenue'] = random_data(df_industry, 'randint', 5000, 8000)
df_industry['supply'] = random_data(df_industry, 'randint', 50, 100)
df_industry['demand_multiplier'] = random_data(df_industry, 'uniform', 0.3, 1)
df_industry['demand'] = (df_industry.supply * df_industry.demand_multiplier).round(0)

# combine data frames
df = pd.concat([df_company, df_industry, df_compset], axis=0, ignore_index=True)

# export to csv
df.to_csv('df.csv', index=False)
	import numpy as np
	import pandas as pd
	import datetime

	# capture current week and same week last year
	date_list = []

	date = datetime.datetime.now().date()
	for i in range(7):
	date_list.append(date - datetime.timedelta(days=i))
	date_list.append((date - datetime.timedelta(days=364)) - datetime.timedelta(days=i))

	# create date dict
	date_dict = {'date': date_list}

	# create brand and chain scale dict for company data
	brand = {'brand':
	['Brand_1', 'Brand_2', 'Brand_3', 'Brand_4', 'Brand_5',
	'Brand_6', 'Brand_7', 'Brand_8', 'Brand_9', 'Brand_10'],
	'chain_scale':
	['Upper Midscale', 'Midscale', 'Midscale', 'Economy', 'Midscale',
	'Economy', 'Upper Midscale', 'Upscale', 'Upscale', 'Economy']
	}


	# create market type dict
	market_type = {'market_type': ['Resort', 'Airport', 'Urban', 'Interstate', 'Small Town', 'Suburban']}

	# create state and distric of columbia dict
	state = {'state':
	['AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL',
	'GA', 'HI', 'IA', 'ID', 'IL', 'IN', 'KS', 'KY', 'LA', 'MA',
	'MD', 'ME', 'MI', 'MN', 'MO', 'MS', 'MT', 'NC', 'ND', 'NE',
	'NH', 'NJ', 'NM', 'NV', 'NY', 'OH', 'OK', 'OR', 'PA', 'RI',
	'SC', 'SD', 'TN', 'TX', 'UT', 'VA', 'VT', 'WA', 'WI', 'WV', 'WY']
	}

	# create chain scale dict for industry data
	chain_scale = {'chain_scale': ['Upscale', 'Upper Middle', 'Midscale', 'Economy']}


	def census(state):
	'''Assigns census division based on State value.'''

	if (state in ['IL', 'IN', 'MI', 'OH', 'WI']):
	return 'East North Central'
	if (state in ['AL', 'KY', 'MS', 'TN']):
	return 'East South Central'
	if (state in ['NJ', 'NY', 'PA']):
	return 'Middle Atlantic'
	if (state in ['AZ', 'CO', 'ID', 'MT', 'NM', 'NV', 'UT', 'WY']):
	return 'Mountain'
	if (state in ['CT', 'MA', 'ME', 'NH', 'RI', 'VT']):
	return 'New England'
	if (state in ['AK', 'CA', 'HI', 'OR', 'WA']):
	return 'Pacific'
	if (state in ['DC', 'DE', 'FL', 'GA', 'MD', 'NC', 'SC', 'VA', 'WV']):
	return 'South Atlantic'
	if (state in ['IA', 'KS', 'MN', 'MO', 'ND', 'NE', 'SD']):
	return 'West North Central'
	if (state in ['AR', 'LA', 'OK', 'TX']):
	return 'West South Central'


	def merge_frames(df1, df2):
	'''
	Used to create a cartesian product of two dataframes
	Parameters:
	:param df1: (Pandas df) df1
	:param df2: (Pandas df) df2

	Returns:
	:returns: (Pandas df) df
	'''
	df1['tmp'] = '1'
	df2['tmp'] = '1'
	df = df1.merge(df2, on='tmp')
	df = df.drop('tmp', axis=1)
	return df


	def random_data(df, rand_type, min, max):
	"""
	Used to generate random values to fill dataframe column.
	Parameters:
	:param df: (Pandas df) df
	:param rand_type: np.random.randint for intergers or np.random.uniform for float
	:min: Minimum value of random data
	:max: Maximum value of random data

	Returns:
	:returns: (Pandas column)
	"""
	if rand_type == 'randint':
	col = np.random.randint(min, max, size=len(df))
	else:
	col = np.random.uniform(low=min, high=max, size=len(df))
	return col


	# assemble dataframes
	df_ind = pd.DataFrame({'brand': ['Industry']})
	df_ind_cs = pd.DataFrame(chain_scale)
	df_brand = pd.DataFrame(brand)
	df_state = pd.DataFrame(state)
	df_date = pd.DataFrame(date_dict)
	df_market = pd.DataFrame(market_type)

	#create cartesian industry frame
	df_industry = merge_frames(df_ind, df_ind_cs)
	df_industry = merge_frames(df_industry, df_date)
	df_industry['source'] = 'industry'

	#create cartesian company frame
	df_company = merge_frames(df_brand, df_state)
	df_company = merge_frames(df_company, df_date)
	df_company = merge_frames(df_company, df_market)
	df_company['source'] = 'choice'

	#create cartesian company frame
	df_compset = merge_frames(df_brand, df_state)
	df_compset = merge_frames(df_compset, df_date)
	df_compset = merge_frames(df_compset, df_market)
	df_compset['source'] = 'compset'

	#apply census function to company and compset frame
	df_company['census_division'] = df_company['state'].apply(census)
	df_compset['census_division'] = df_compset['state'].apply(census)

	#create random values for revenue, demand and supply for company data
	df_company['revenue'] = random_data(df_company, 'randint', 5000, 10000)
	df_company['supply'] = random_data(df_company, 'randint', 50, 100)
	df_company['demand_multiplier'] = random_data(df_company, 'uniform', 0.3, 1)
	df_company['demand'] = (df_company.supply * df_company.demand_multiplier).round(0)

	#create random values for revenue, demand and supply for compset data
	df_compset['revenue'] = random_data(df_compset, 'randint', 5000, 10000)
	df_compset['supply'] = random_data(df_compset, 'randint', 50, 100)
	df_compset['demand_multiplier'] = random_data(df_compset, 'uniform', 0.3, 1)
	df_compset['demand'] = (df_compset.supply * df_compset.demand_multiplier).round(0)

	#create random values for revenue, demand and supply for industry data
	df_industry['revenue'] = random_data(df_industry, 'randint', 5000, 8000)
	df_industry['supply'] = random_data(df_industry, 'randint', 50, 100)
	df_industry['demand_multiplier'] = random_data(df_industry, 'uniform', 0.3, 1)
	df_industry['demand'] = (df_industry.supply * df_industry.demand_multiplier).round(0)

	# combine data frames
	df = pd.concat([df_company, df_industry, df_compset], axis=0, ignore_index=True)

	# export to csv
	df.to_csv('df.csv', index=False)