prateekjoshi565/genre_words_visual.py

## genre_words_visual.py
def freq_words(x, terms = 30):
  all_words = ' '.join([text for text in x])
  all_words = all_words.split()
  fdist = nltk.FreqDist(all_words)
  words_df = pd.DataFrame({'word':list(fdist.keys()), 'count':list(fdist.values())})

  # selecting top 20 most frequent words
  d = words_df.nlargest(columns="count", n = terms)

  # visualize words and frequencies
  plt.figure(figsize=(12,15))
  ax = sns.barplot(data=d, x= "count", y = "word")
  ax.set(ylabel = 'Word')
  plt.show()

# print 100 most frequent words
freq_words(movies_new['clean_plot'], 100)
	def freq_words(x, terms = 30):
	all_words = ' '.join([text for text in x])
	all_words = all_words.split()
	fdist = nltk.FreqDist(all_words)
	words_df = pd.DataFrame({'word':list(fdist.keys()), 'count':list(fdist.values())})

	# selecting top 20 most frequent words
	d = words_df.nlargest(columns="count", n = terms)

	# visualize words and frequencies
	plt.figure(figsize=(12,15))
	ax = sns.barplot(data=d, x= "count", y = "word")
	ax.set(ylabel = 'Word')
	plt.show()

	# print 100 most frequent words
	freq_words(movies_new['clean_plot'], 100)