jamesthomson/pandas manip lastfm data.py

## pandas manip lastfm data.py
#import data
import pandas as pd
plays = pd.read_table("usersha1-artmbid-artname-plays-sample.tsv", usecols=[0, 2, 3], names=['user', 'artist', 'plays'])
users = pd.read_table("usersha1-profile-sample.tsv", usecols=[0, 1], names=['user', 'gender'])
#print plays.head()
#print users.head()

#clear people who don't know gender for
users=users.dropna()
#dummy code up gender
genders=pd.get_dummies(users['gender'])
users=users.join(genders)
#alternate dummy code of gender
#malemap={'m':1,'f':0}
#femalemap={'m':0,'f':1}
#users['male']=users['gender'].map(malemap)
#users['female']=users['gender'].map(femalemap)
#print users.head()
#print users.groupby(['gender']).agg(['count'])


#find top 20 artists
top_artists=plays.groupby('artist').size().order(ascending=False)[:20]
#print top_artists

#reduce the plays data down to top artists
top_plays = plays[plays['artist'].isin(top_artists.index)]
#print top_plays.head(50)

#pivot data set to make wide and fill in blanks
top_plays_t=top_plays.pivot('user', 'artist', 'plays').fillna(0)
#print top_plays_t.head()

#join to users information
to_model=pd.merge(users, top_plays_t, left_on='user', right_index=True, how='left').fillna(0)
#print to_model.head()

#ready for sklearn
Y=to_model['m'].values
X=to_model[(to_model.columns.values[4:])].values
	#import data
	import pandas as pd
	plays = pd.read_table("usersha1-artmbid-artname-plays-sample.tsv", usecols=[0, 2, 3], names=['user', 'artist', 'plays'])
	users = pd.read_table("usersha1-profile-sample.tsv", usecols=[0, 1], names=['user', 'gender'])
	#print plays.head()
	#print users.head()

	#clear people who don't know gender for
	users=users.dropna()
	#dummy code up gender
	genders=pd.get_dummies(users['gender'])
	users=users.join(genders)
	#alternate dummy code of gender
	#malemap={'m':1,'f':0}
	#femalemap={'m':0,'f':1}
	#users['male']=users['gender'].map(malemap)
	#users['female']=users['gender'].map(femalemap)
	#print users.head()
	#print users.groupby(['gender']).agg(['count'])


	#find top 20 artists
	top_artists=plays.groupby('artist').size().order(ascending=False)[:20]
	#print top_artists

	#reduce the plays data down to top artists
	top_plays = plays[plays['artist'].isin(top_artists.index)]
	#print top_plays.head(50)

	#pivot data set to make wide and fill in blanks
	top_plays_t=top_plays.pivot('user', 'artist', 'plays').fillna(0)
	#print top_plays_t.head()

	#join to users information
	to_model=pd.merge(users, top_plays_t, left_on='user', right_index=True, how='left').fillna(0)
	#print to_model.head()

	#ready for sklearn
	Y=to_model['m'].values
	X=to_model[(to_model.columns.values[4:])].values