dyerrington/linear_regression_kfold_cross_validation.py

## linear_regression_kfold_cross_validation.py
# k-fold regression
# we need our modules for this:
from sklearn.linear_model import LinearRegression
from sklearn.cross_validation import cross_val_score, cross_val_predict
from matplotlib import pyplot as plt

from sklearn import metrics

# Make the plots bigger
plt.rcParams['figure.figsize'] = 10, 10

# Make plots show up!
% matplotlib inline

# Load test data
data = load_diabetes()
df = pd.DataFrame(data['data'])

# Setup our X (predictors), y (response / prediction target)
predictor_variables = [0,1,3,4,5]  # Update these to the variables you want to use for linear regression
X = df[predictor_variables]
y = data['target']

# init our linear regression class / object
lm = LinearRegression()

# Fit our training data
model = lm.fit(X, y)

# Perform 6-fold cross validation
scores = cross_val_score(lm, X, y, cv=6)
print "Cross-validated scores:", scores

# Make cross validated predictions
predictions = cross_val_predict(model, df, y, cv=6)
plt.scatter(y, predictions)
accuracy = metrics.r2_score(y, predictions)

print "Cross-Predicted Accuracy:", accuracy
	# k-fold regression
	# we need our modules for this:
	from sklearn.linear_model import LinearRegression
	from sklearn.cross_validation import cross_val_score, cross_val_predict
	from matplotlib import pyplot as plt

	from sklearn import metrics

	# Make the plots bigger
	plt.rcParams['figure.figsize'] = 10, 10

	# Make plots show up!
	% matplotlib inline

	# Load test data
	data = load_diabetes()
	df = pd.DataFrame(data['data'])

	# Setup our X (predictors), y (response / prediction target)
	predictor_variables = [0,1,3,4,5] # Update these to the variables you want to use for linear regression
	X = df[predictor_variables]
	y = data['target']

	# init our linear regression class / object
	lm = LinearRegression()

	# Fit our training data
	model = lm.fit(X, y)

	# Perform 6-fold cross validation
	scores = cross_val_score(lm, X, y, cv=6)
	print "Cross-validated scores:", scores

	# Make cross validated predictions
	predictions = cross_val_predict(model, df, y, cv=6)
	plt.scatter(y, predictions)
	accuracy = metrics.r2_score(y, predictions)

	print "Cross-Predicted Accuracy:", accuracy