victorkohler/item_item_collaborative _filtering_2.py

## item_item_collaborative _filtering_2.py

#------------------------
# ITEM-ITEM CALCULATIONS
#------------------------

# As a first step we normalize the user vectors to unit vectors.

# magnitude = sqrt(x2 + y2 + z2 + ...)
magnitude = np.sqrt(np.square(data_items).sum(axis=1))

# unitvector = (x / magnitude, y / magnitude, z / magnitude, ...)
data_items = data_items.divide(magnitude, axis='index')

def calculate_similarity(data_items):
    """Calculate the column-wise cosine similarity for a sparse
    matrix. Return a new dataframe matrix with similarities.
    """
    data_sparse = sparse.csr_matrix(data_items)
    similarities = cosine_similarity(data_sparse.transpose())
    sim = pd.DataFrame(data=similarities, index= data_items.columns, columns= data_items.columns)
    return sim

# Build the similarity matrix
data_matrix = calculate_similarity(data_items)

# Lets get the top 11 similar artists for Beyonce
print data_matrix.loc['beyonce'].nlargest(11)

	#------------------------
	# ITEM-ITEM CALCULATIONS
	#------------------------

	# As a first step we normalize the user vectors to unit vectors.

	# magnitude = sqrt(x2 + y2 + z2 + ...)
	magnitude = np.sqrt(np.square(data_items).sum(axis=1))

	# unitvector = (x / magnitude, y / magnitude, z / magnitude, ...)
	data_items = data_items.divide(magnitude, axis='index')

	def calculate_similarity(data_items):
	"""Calculate the column-wise cosine similarity for a sparse
	matrix. Return a new dataframe matrix with similarities.
	"""
	data_sparse = sparse.csr_matrix(data_items)
	similarities = cosine_similarity(data_sparse.transpose())
	sim = pd.DataFrame(data=similarities, index= data_items.columns, columns= data_items.columns)
	return sim

	# Build the similarity matrix
	data_matrix = calculate_similarity(data_items)

	# Lets get the top 11 similar artists for Beyonce
	print data_matrix.loc['beyonce'].nlargest(11)