muchanem/PitchforkScoreDistribution.py

## PitchforkScoreDistribution.py
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

dataseturl = "https://zenodo.org/record/3603330/files/output-data.csv?download=1"
df = pd.read_csv(dataseturl)
df = df.dropna(subset=["reviewdate", "releaseyear"])
df["rev_year"] = pd.to_datetime(df["reviewdate"]).dt.year
df["rel_year"] = df["releaseyear"].astype("int64")

current = df[df["rev_year"] == df["rel_year"]]
old = df[df["rev_year"] != df["rel_year"]]

print(stats.ttest_ind(current["score"],old["score"]))
plt.hist(current["score"],alpha=0.5,label="Current Reviews",density=True)
plt.hist(old["score"],alpha=0.5,label="Archival Reviews",density=True)
plt.legend(loc='upper right')
plt.title("Distribution of Pitchfork Scores for Current vs Archival Reviews, ~1970-2019")
plt.show()
	import pandas as pd
	import matplotlib.pyplot as plt
	import scipy.stats as stats

	dataseturl = "https://zenodo.org/record/3603330/files/output-data.csv?download=1"
	df = pd.read_csv(dataseturl)
	df = df.dropna(subset=["reviewdate", "releaseyear"])
	df["rev_year"] = pd.to_datetime(df["reviewdate"]).dt.year
	df["rel_year"] = df["releaseyear"].astype("int64")

	current = df[df["rev_year"] == df["rel_year"]]
	old = df[df["rev_year"] != df["rel_year"]]

	print(stats.ttest_ind(current["score"],old["score"]))
	plt.hist(current["score"],alpha=0.5,label="Current Reviews",density=True)
	plt.hist(old["score"],alpha=0.5,label="Archival Reviews",density=True)
	plt.legend(loc='upper right')
	plt.title("Distribution of Pitchfork Scores for Current vs Archival Reviews, ~1970-2019")
	plt.show()