paulmillr/mapreduce.scala

## mapreduce.scala
import com.cloudera.crunch._
import com.cloudera.scrunch._

class ScrunchWordCount {
  def wordCount(inputFile: String, outputFile: String) = {
    val pipeline = new Pipeline[ScrunchWordCount]
    pipeline.read(from.textFile(inputFile))
      .flatMap(_.toLowerCase.split("\\W+"))
      .filter(!_.isEmpty())
      .count
      .write(to.textFile(outputFile)) // Word counts
      .map((word, count) => (word.slice(0, 1), count))
      .groupByKey.combine(v => v.sum).materialize
    pipeline.done
  }
}

object ScrunchWordCount {
  def main(args: Array[String]) = {
     new ScrunchWordCount.wordCount(args(0), args(1))
  }
}
	import com.cloudera.crunch._
	import com.cloudera.scrunch._

	class ScrunchWordCount {
	def wordCount(inputFile: String, outputFile: String) = {
	val pipeline = new Pipeline[ScrunchWordCount]
	pipeline.read(from.textFile(inputFile))
	.flatMap(_.toLowerCase.split("\\W+"))
	.filter(!_.isEmpty())
	.count
	.write(to.textFile(outputFile)) // Word counts
	.map((word, count) => (word.slice(0, 1), count))
	.groupByKey.combine(v => v.sum).materialize
	pipeline.done
	}
	}

	object ScrunchWordCount {
	def main(args: Array[String]) = {
	new ScrunchWordCount.wordCount(args(0), args(1))
	}
	}