benmarwick/ngrams.R

## ngrams.R
library("RWeka")
library("tm")

data("crude")

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))

inspect(tdm[340:345,1:10])

plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2)[1:50], corThreshold = 0.5)
	library("RWeka")
	library("tm")

	data("crude")

	BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
	tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))

	inspect(tdm[340:345,1:10])

	plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2)[1:50], corThreshold = 0.5)