mattjj/stanfordtmt.scala

## stanfordtmt.scala
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

val tokenizer = {
  SimpleEnglishTokenizer() ~>            // tokenize on space and punctuation
  CaseFolder() ~>                        // lowercase everything
  WordsAndNumbersOnlyFilter() ~>         // ignore non-words and non-numbers
  MinimumLengthFilter(3)                 // take terms with >=3 characters
}

val text = {
  source ~>                              // read from the source file
  Column(4) ~>                           // select column containing text
  TokenizeWith(tokenizer) ~>             // tokenize with tokenizer above
  TermCounter() ~>                       // collect counts (needed below)
  TermMinimumDocumentCountFilter(4) ~>   // filter terms in <4 docs
  TermDynamicStopListFilter(30) ~>       // filter out 30 most common terms
  DocumentMinimumLengthFilter(5)         // take only docs with >=5 terms
}
	val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

	val tokenizer = {
	SimpleEnglishTokenizer() ~> // tokenize on space and punctuation
	CaseFolder() ~> // lowercase everything
	WordsAndNumbersOnlyFilter() ~> // ignore non-words and non-numbers
	MinimumLengthFilter(3) // take terms with >=3 characters
	}

	val text = {
	source ~> // read from the source file
	Column(4) ~> // select column containing text
	TokenizeWith(tokenizer) ~> // tokenize with tokenizer above
	TermCounter() ~> // collect counts (needed below)
	TermMinimumDocumentCountFilter(4) ~> // filter terms in <4 docs
	TermDynamicStopListFilter(30) ~> // filter out 30 most common terms
	DocumentMinimumLengthFilter(5) // take only docs with >=5 terms
	}