socratesk/TargetEncode.py

## TargetEncode.py
import pandas as pd
from sklearn import preprocessing

vehiclerDF = pd.DataFrame({'id':[101, 102, 103, 104, 105, 106, 107, 108],
                          'vehicle':['Car', 'Minivan', 'SUV', 'Car', 'Car', 'Minivan','Car', 'Minivan'],
                          'label':['Yes', 'Yes', 'Yes', 'No', 'Yes', 'No','Yes', 'No']})

# Encode label (target)
labelEncode = preprocessing.LabelEncoder()
vehiclerDF['label'] = labelEncode.fit_transform(vehiclerDF['label'])

# Group by category and calculate "mean" per item in the category
means = vehiclerDF.groupby('vehicle').label.mean()

# Map mean values against each respective item in the category
vehiclerDF['vehicleTargetRatio'] = vehiclerDF['vehicle'].map(means)

# Cleanup unwanted features
vehiclerDF.drop(['vehicle'], axis=1, inplace=True)
print(vehiclerDF)
	import pandas as pd
	from sklearn import preprocessing

	vehiclerDF = pd.DataFrame({'id':[101, 102, 103, 104, 105, 106, 107, 108],
	'vehicle':['Car', 'Minivan', 'SUV', 'Car', 'Car', 'Minivan','Car', 'Minivan'],
	'label':['Yes', 'Yes', 'Yes', 'No', 'Yes', 'No','Yes', 'No']})

	# Encode label (target)
	labelEncode = preprocessing.LabelEncoder()
	vehiclerDF['label'] = labelEncode.fit_transform(vehiclerDF['label'])

	# Group by category and calculate "mean" per item in the category
	means = vehiclerDF.groupby('vehicle').label.mean()

	# Map mean values against each respective item in the category
	vehiclerDF['vehicleTargetRatio'] = vehiclerDF['vehicle'].map(means)

	# Cleanup unwanted features
	vehiclerDF.drop(['vehicle'], axis=1, inplace=True)
	print(vehiclerDF)