StephenFordham/testing_strategies.py

## testing_strategies.py
results =[]

strategies = ['mean', 'median', 'most_frequent','constant']

for s in strategies:
    pipeline = Pipeline([('impute', SimpleImputer(strategy=s)),('model', model)])
    cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
    scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

    results.append(scores)

for method, accuracy in zip(strategies, results):
    print('Method: {0}, mean accuracy: = {1:.3f}, max accuracy: {2:.3f}'.format(method, np.mean(accuracy), np.max(accuracy)))


# Output:
# Method: mean, mean accuracy: = 0.849, max accuracy: 0.858
# Method: median, mean accuracy: = 0.848, max accuracy: 0.858
# Method: most_frequent, mean accuracy: = 0.848, max accuracy: 0.861
# Method: constant, mean accuracy: = 0.849, max accuracy: 0.868
	results =[]

	strategies = ['mean', 'median', 'most_frequent','constant']

	for s in strategies:
	pipeline = Pipeline([('impute', SimpleImputer(strategy=s)),('model', model)])
	cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
	scores = cross_val_score(pipeline, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

	results.append(scores)

	for method, accuracy in zip(strategies, results):
	print('Method: {0}, mean accuracy: = {1:.3f}, max accuracy: {2:.3f}'.format(method, np.mean(accuracy), np.max(accuracy)))


	# Output:
	# Method: mean, mean accuracy: = 0.849, max accuracy: 0.858
	# Method: median, mean accuracy: = 0.848, max accuracy: 0.858
	# Method: most_frequent, mean accuracy: = 0.848, max accuracy: 0.861
	# Method: constant, mean accuracy: = 0.849, max accuracy: 0.868