lisanka93/ngrams.py

## ngrams.py
from nltk.util import ngrams, word_tokenize, bigrams, trigrams

sen = "Dummy sentence to demonstrate bigrams"
nltk_tokens = word_tokenize(sen) #using tokenize from NLKT and not split() because split() does not take into account punctuation

#splitting sentence into bigrams and trigrams
print(list(bigrams(nltk_tokens)))
print(list(trigrams(nltk_tokens)))

#creating a dictionary that shows occurances of n-grams in text
n_gram = 5
n_gram_dic = dict(Counter(ngrams(all_words.split(), n_gram)))
print(n_gram_dic)
	from nltk.util import ngrams, word_tokenize, bigrams, trigrams

	sen = "Dummy sentence to demonstrate bigrams"
	nltk_tokens = word_tokenize(sen) #using tokenize from NLKT and not split() because split() does not take into account punctuation

	#splitting sentence into bigrams and trigrams
	print(list(bigrams(nltk_tokens)))
	print(list(trigrams(nltk_tokens)))

	#creating a dictionary that shows occurances of n-grams in text
	n_gram = 5
	n_gram_dic = dict(Counter(ngrams(all_words.split(), n_gram)))
	print(n_gram_dic)