gupul2k/mf_500_Bag_of_Words.py

## mf_500_Bag_of_Words.py
#Author: Sobhan Hota
#Finds most frequent 500 words in a given file

from string import punctuation
from operator import itemgetter

N = 500
words = {}

words_gen = (word.strip(punctuation).lower() for line in open("C:\Python27\Corpus.txt")
                                             for word in line.split())

for word in words_gen:
    words[word] = words.get(word, 0) + 1

top_words = sorted(words.iteritems(), key=itemgetter(1), reverse=True)[:N]

for word, frequency in top_words:
  print "%s %d" % (word, frequency)
	#Author: Sobhan Hota
	#Finds most frequent 500 words in a given file

	from string import punctuation
	from operator import itemgetter

	N = 500
	words = {}

	words_gen = (word.strip(punctuation).lower() for line in open("C:\Python27\Corpus.txt")
	for word in line.split())

	for word in words_gen:
	words[word] = words.get(word, 0) + 1

	top_words = sorted(words.iteritems(), key=itemgetter(1), reverse=True)[:N]

	for word, frequency in top_words:
	print "%s %d" % (word, frequency)