aateg/nltk_freq_dist.py

## nltk_freq_dist.py
import nltk
nltk.download('machado')
from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize
nltk.download('punkt')

# corpus dom casmurro
corpus_dom_casmurro = nltk.corpus.machado.raw('romance/marm08.txt')

# pre processamento
texto = pre_processamento(corpus_dom_casmurro)

# tokenizando
tokens = word_tokenize(texto)

# contagem de frequencia
fd = FreqDist(tokens)
print("20 palavras mais frequentes:")
print(fd.most_common(20))

# plot
import matplotlib.pyplot as plt
plt.figure(figsize = (13, 8))
fd.plot(30, title = "Frequência de Palavras")
	import nltk
	nltk.download('machado')
	from nltk.probability import FreqDist
	from nltk.tokenize import word_tokenize
	nltk.download('punkt')

	# corpus dom casmurro
	corpus_dom_casmurro = nltk.corpus.machado.raw('romance/marm08.txt')

	# pre processamento
	texto = pre_processamento(corpus_dom_casmurro)

	# tokenizando
	tokens = word_tokenize(texto)

	# contagem de frequencia
	fd = FreqDist(tokens)
	print("20 palavras mais frequentes:")
	print(fd.most_common(20))

	# plot
	import matplotlib.pyplot as plt
	plt.figure(figsize = (13, 8))
	fd.plot(30, title = "Frequência de Palavras")