Wann-Jiun Ma Wann-Jiun

## nycdsa_p4_y_final.py
y_final = (1*np.ravel(y_test_pred_xgb) + 1*np.ravel(y_test_pred_kridge) + 1*np.ravel(y_test_pred_lasso))/3
y_final.shape

y_pred = np.exp(y_final)

# Final Conversion.
output_file = 'xgboost_lasso_kridge_weights_1_1_1'
final_file = '0108_'+ output_file +'.csv'

pred_df = pd.DataFrame(y_pred, index=test_df["Id"], columns=["SalePrice"])

## nycdsa_p4_importance.py
from xgboost import plot_importance
from matplotlib import pyplot

xgb_regr = xgb.XGBRegressor(
                 colsample_bytree=0.2,
                 gamma=0.0,
                 learning_rate=0.01,
                 max_depth=4,
                 min_child_weight=1.5,
                 n_estimators=7200,

## nycdsa_p4_selection.py
# Extra Trees Regressor

et_regr = ExtraTreesRegressor()
et_regr.fit(train_df_munged, label_df)

# Run prediction on training set to get a rough idea of how well it does.
y_pred = et_regr.predict(train_df_munged)
y_test = label_df
print("Extra Trees Regressor score on training set: ", rmse(y_test, y_pred))

## nycdsa_p5_df.py
df = pd.read_csv('ratings.csv', sep=',')
df_id = pd.read_csv('links.csv', sep=',')
df = pd.merge(df, df_id, on=['movieId'])

rating_matrix = np.zeros((df.userId.unique().shape[0], max(df.movieId)))
for row in df.itertuples():
    rating_matrix[row[1]-1, row[2]-1] = row[3]
rating_matrix = rating_matrix[:,:9000]

## nycdsa_p5_split.py
train_matrix = rating_matrix.copy()
test_matrix = np.zeros(ratings_matrix.shape)

for i in xrange(rating_matrix.shape[0]):
    rating_idx = np.random.choice(
        rating_matrix[i, :].nonzero()[0],
        size=10,
        replace=True)
    train_matrix[i, rating_idx] = 0.0
    test_matrix[i, rating_idx] = rating_matrix[i, rating_idx]

## nycdsa_p5_sparsity.py
sparsity = float(len(ratings.nonzero()[0]))
sparsity /= (ratings.shape[0] * ratings.shape[1])
sparsity *= 100

## nycdsa_p5_cf.py
df_id = pd.read_csv('links.csv', sep=',')

idx_to_movie = {}
for row in df_id.itertuples():
    idx_to_movie[row[1]-1] = row[2]

total_movies = 9000

movies = [0]*total_movies
for i in range(len(movies)):

## nycsa_p5_similarity.py
similarity_user = train_matrix.dot(train_matrix.T) + 1e-9
norms = np.array([np.sqrt(np.diagonal(similarity_user))])
similarity_user = ( similarity_user / (norms * norms.T) )

similarity_movie = train_matrix.T.dot(train_matrix) + 1e-9
norms = np.array([np.sqrt(np.diagonal(similarity_movie))])
similarity_movie = ( similarity_movie / (norms * norms.T) )

## nycdsa_p5_movie_prediction.py
import requests
import json

from IPython.display import Image
from IPython.display import display
from IPython.display import HTML

idx_to_movie = {}
for row in df_id.itertuples():
    idx_to_movie[row[1]-1] = row[2]

## nycdsa_p4_quality.py
quality_dict = {None: 0, "Po": 1, "Fa": 2, "TA": 3, "Gd": 4, "Ex": 5}

train_df["ExterQual"] = df["ExterQual"].map(quality_dict).astype(int)
train_df["ExterCond"] = df["ExterCond"].map(quality_dict).astype(int)
train_df["BsmtQual"] = df["BsmtQual"].map(quality_dict).astype(int)
train_df["BsmtCond"] = df["BsmtCond"].map(quality_dict).astype(int)
train_df["HeatingQC"] = df["HeatingQC"].map(quality_dict).astype(int)
train_df["KitchenQual"] = df["KitchenQual"].map(quality_dict).astype(int)
train_df["FireplaceQu"] = df["FireplaceQu"].map(quality_dict).astype(int)
train_df["GarageQual"] = df["GarageQual"].map(quality_dict).astype(int)
	y_final = (1np.ravel(y_test_pred_xgb) + 1np.ravel(y_test_pred_kridge) + 1*np.ravel(y_test_pred_lasso))/3
	y_final.shape

	y_pred = np.exp(y_final)

	# Final Conversion.
	output_file = 'xgboost_lasso_kridge_weights_1_1_1'
	final_file = '0108_'+ output_file +'.csv'

	pred_df = pd.DataFrame(y_pred, index=test_df["Id"], columns=["SalePrice"])
	from xgboost import plot_importance
	from matplotlib import pyplot

	xgb_regr = xgb.XGBRegressor(
	colsample_bytree=0.2,
	gamma=0.0,
	learning_rate=0.01,
	max_depth=4,
	min_child_weight=1.5,
	n_estimators=7200,
	# Extra Trees Regressor

	et_regr = ExtraTreesRegressor()
	et_regr.fit(train_df_munged, label_df)

	# Run prediction on training set to get a rough idea of how well it does.
	y_pred = et_regr.predict(train_df_munged)
	y_test = label_df
	print("Extra Trees Regressor score on training set: ", rmse(y_test, y_pred))
	df = pd.read_csv('ratings.csv', sep=',')
	df_id = pd.read_csv('links.csv', sep=',')
	df = pd.merge(df, df_id, on=['movieId'])

	rating_matrix = np.zeros((df.userId.unique().shape[0], max(df.movieId)))
	for row in df.itertuples():
	rating_matrix[row[1]-1, row[2]-1] = row[3]
	rating_matrix = rating_matrix[:,:9000]
	train_matrix = rating_matrix.copy()
	test_matrix = np.zeros(ratings_matrix.shape)

	for i in xrange(rating_matrix.shape[0]):
	rating_idx = np.random.choice(
	rating_matrix[i, :].nonzero()[0],
	size=10,
	replace=True)
	train_matrix[i, rating_idx] = 0.0
	test_matrix[i, rating_idx] = rating_matrix[i, rating_idx]
	sparsity = float(len(ratings.nonzero()[0]))
	sparsity /= (ratings.shape[0] * ratings.shape[1])
	sparsity *= 100
	df_id = pd.read_csv('links.csv', sep=',')

	idx_to_movie = {}
	for row in df_id.itertuples():
	idx_to_movie[row[1]-1] = row[2]

	total_movies = 9000

	movies = [0]*total_movies
	for i in range(len(movies)):
	similarity_user = train_matrix.dot(train_matrix.T) + 1e-9
	norms = np.array([np.sqrt(np.diagonal(similarity_user))])
	similarity_user = ( similarity_user / (norms * norms.T) )

	similarity_movie = train_matrix.T.dot(train_matrix) + 1e-9
	norms = np.array([np.sqrt(np.diagonal(similarity_movie))])
	similarity_movie = ( similarity_movie / (norms * norms.T) )
	import requests
	import json

	from IPython.display import Image
	from IPython.display import display
	from IPython.display import HTML

	idx_to_movie = {}
	for row in df_id.itertuples():
	idx_to_movie[row[1]-1] = row[2]
	quality_dict = {None: 0, "Po": 1, "Fa": 2, "TA": 3, "Gd": 4, "Ex": 5}

	train_df["ExterQual"] = df["ExterQual"].map(quality_dict).astype(int)
	train_df["ExterCond"] = df["ExterCond"].map(quality_dict).astype(int)
	train_df["BsmtQual"] = df["BsmtQual"].map(quality_dict).astype(int)
	train_df["BsmtCond"] = df["BsmtCond"].map(quality_dict).astype(int)
	train_df["HeatingQC"] = df["HeatingQC"].map(quality_dict).astype(int)
	train_df["KitchenQual"] = df["KitchenQual"].map(quality_dict).astype(int)
	train_df["FireplaceQu"] = df["FireplaceQu"].map(quality_dict).astype(int)
	train_df["GarageQual"] = df["GarageQual"].map(quality_dict).astype(int)