drussellmrichie/lookupTagger

## lookupTagger
# Natural Language Toolkit: code_baseline_tagger
# functions from http://www.nltk.org/book/ch05.html

from nltk.corpus import brown
import nltk

def performance(cfd, wordlist):
    lt = dict((word, cfd[word].max()) for word in wordlist)
    baseline_tagger = nltk.UnigramTagger(model=lt, backoff=nltk.DefaultTagger('NN'))
    return baseline_tagger.evaluate(brown.tagged_sents(categories='news'))

def display():
    import pylab
    words_by_freq = list(nltk.FreqDist(brown.words(categories='news')))
    cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories='news'))
    sizes = 2 ** pylab.arange(15)
    perfs = [performance(cfd, words_by_freq[:size]) for size in sizes]
    pylab.plot(sizes, perfs, '-bo')
    pylab.title('Lookup Tagger Performance with Varying Model Size')
    pylab.xlabel('Model Size')
    pylab.ylabel('Perfdlormance')
    pylab.show()

display()
	# Natural Language Toolkit: code_baseline_tagger
	# functions from http://www.nltk.org/book/ch05.html

	from nltk.corpus import brown
	import nltk

	def performance(cfd, wordlist):
	lt = dict((word, cfd[word].max()) for word in wordlist)
	baseline_tagger = nltk.UnigramTagger(model=lt, backoff=nltk.DefaultTagger('NN'))
	return baseline_tagger.evaluate(brown.tagged_sents(categories='news'))

	def display():
	import pylab
	words_by_freq = list(nltk.FreqDist(brown.words(categories='news')))
	cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories='news'))
	sizes = 2 ** pylab.arange(15)
	perfs = [performance(cfd, words_by_freq[:size]) for size in sizes]
	pylab.plot(sizes, perfs, '-bo')
	pylab.title('Lookup Tagger Performance with Varying Model Size')
	pylab.xlabel('Model Size')
	pylab.ylabel('Perfdlormance')
	pylab.show()

	display()