Xparx/SBW2015_word_cloud.R

## convert_pdf2txt.sh
 # pip install pdfminer
 pdf2txt.py SBW2015_book.pdf > SBW2015_book.txt

## SBW2015_word_cloud.R
library(tm)
library(wordcloud)
library(memoise)

text_file <- 'SBW2015_book.txt'

# Using "memoise" to automatically cache the results
text <- readLines(sprintf("./%s", text_file), encoding="UTF-8")

text <- stemDocument(text) # doesn't seem to do anything
myCorpus <- Corpus(VectorSource(text))
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, stripWhitespace)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, removeWords, c(stopwords("SMART"), "thy", "thou", "thee", "the", "and", "but","university","karolinska","institutet","institute","presenter","poster","stockholm","kth","linköping","scilifelab","gothenburg","uppsala"))


myDTM <- TermDocumentMatrix(myCorpus, control = list(minWordLength = 1))
m <- as.matrix(myDTM)

getTermMatrix <- data.frame(freq=sort(rowSums(m), decreasing = TRUE))
wordcloud(rownames(getTermMatrix),getTermMatrix[,'freq'],colors=brewer.pal(8, "Paired"),max.words=200)
	# pip install pdfminer
	pdf2txt.py SBW2015_book.pdf > SBW2015_book.txt
	library(tm)
	library(wordcloud)
	library(memoise)

	text_file <- 'SBW2015_book.txt'

	# Using "memoise" to automatically cache the results
	text <- readLines(sprintf("./%s", text_file), encoding="UTF-8")

	text <- stemDocument(text) # doesn't seem to do anything
	myCorpus <- Corpus(VectorSource(text))
	myCorpus <- tm_map(myCorpus, content_transformer(tolower))
	myCorpus <- tm_map(myCorpus, removePunctuation)
	myCorpus <- tm_map(myCorpus, stripWhitespace)
	myCorpus <- tm_map(myCorpus, removeNumbers)
	myCorpus <- tm_map(myCorpus, removeWords, c(stopwords("SMART"), "thy", "thou", "thee", "the", "and", "but","university","karolinska","institutet","institute","presenter","poster","stockholm","kth","linköping","scilifelab","gothenburg","uppsala"))


	myDTM <- TermDocumentMatrix(myCorpus, control = list(minWordLength = 1))
	m <- as.matrix(myDTM)

	getTermMatrix <- data.frame(freq=sort(rowSums(m), decreasing = TRUE))
	wordcloud(rownames(getTermMatrix),getTermMatrix[,'freq'],colors=brewer.pal(8, "Paired"),max.words=200)