naiborhujosua/statistics.py

## statistics.py
from pyspark.sql.functions import col,avg,min
# Min num implicit ratings for a song
print("Minimum implicit ratings for a song: ")
msd.filter(col("num_plays") > 0).groupBy("songId").count().select(min("count")).show()

# Avg num implicit ratings per songs
print("Average implicit ratings per song: ")
msd.filter(col("num_plays") > 0).groupBy("songId").count().select(avg("count")).show()

# Min num implicit ratings from a user
print("Minimum implicit ratings from a user: ")
msd.filter(col("num_plays") > 0).groupBy("userId").count().select(min("count")).show()

# Avg num implicit ratings for users
print("Average implicit ratings per user: ")
msd.filter(col("num_plays") > 0).groupBy("userId").count().select(avg("count")).show()
	from pyspark.sql.functions import col,avg,min
	# Min num implicit ratings for a song
	print("Minimum implicit ratings for a song: ")
	msd.filter(col("num_plays") > 0).groupBy("songId").count().select(min("count")).show()

	# Avg num implicit ratings per songs
	print("Average implicit ratings per song: ")
	msd.filter(col("num_plays") > 0).groupBy("songId").count().select(avg("count")).show()

	# Min num implicit ratings from a user
	print("Minimum implicit ratings from a user: ")
	msd.filter(col("num_plays") > 0).groupBy("userId").count().select(min("count")).show()

	# Avg num implicit ratings for users
	print("Average implicit ratings per user: ")
	msd.filter(col("num_plays") > 0).groupBy("userId").count().select(avg("count")).show()