nonsleepr/tokenizer.R

## tokenizer.R
ngrams.tokenizer <- function(x, n = 2) {
  trim <- function(x) gsub("(^\\s+|\\s+$)", "", x)
  terms <- strsplit(trim(x), split = "\\s+")[[1]]
  ngrams <- vector()
  if (length(terms) >= n) {
    for (i in n:length(terms)) {
      ngram <- paste(terms[(i-n+1):i], collapse = " ")
      ngrams <- c(ngrams,ngram)
    }
  }
  ngrams
}

ngrams.tokenizer(" this  is a sentense to be ngrammized", 3)
	ngrams.tokenizer <- function(x, n = 2) {
	trim <- function(x) gsub("(^\\s+\|\\s+$)", "", x)
	terms <- strsplit(trim(x), split = "\\s+")[[1]]
	ngrams <- vector()
	if (length(terms) >= n) {
	for (i in n:length(terms)) {
	ngram <- paste(terms[(i-n+1):i], collapse = " ")
	ngrams <- c(ngrams,ngram)
	}
	}
	ngrams
	}

	ngrams.tokenizer(" this is a sentense to be ngrammized", 3)