Jason Crocker crocker

## jsonview.scala
// define your json views
object MyViews {
  class ViewA {}
  class ViewB {}
  class ViewC {}
}

// configure your object mapper
val mapper = new ObjectMapper with ScalaObjectMapper
mapper.registerModule(DefaultScalaModule)

## guicenamed.scala
val elastic = injector.getInstance[ElasticClient](
  Key.get(classOf[ElasticClient],
  Names.named("elastic"))
)

## forest.scala
package com.signalpath.model

import scala.collection.mutable

class Forest[A]()(ordering: Ordering[A]) {
  val tree = new mutable.LinkedHashMap[Option[A], mutable.ListBuffer[A]]()

  def addNode(parent: Option[A], node: A): Unit = {
    val children = tree.get(parent).map(_ += node).getOrElse(mutable.ListBuffer[A](node))
    tree.put(parent,children.sorted(ordering))

## mongo-update-all.js
db.subscription.updateMany({}, {$set: {last_processed: null}})

## Weeks.scala
def getDateRange(year: Int, week: Int): (LocalDate, LocalDate) = {
  val date = new LocalDate().withYear(year).withWeekOfWeekyear(week)
  val startDate = date.withDayOfWeek(1)
  val endDate = date.withDayOfWeek(7)

  (startDate, endDate)
}

val dateFormat = "yyyy-MM-dd E"
val year = 2016

## spark-logging-bad.scala
// This will not print to your logs (no matter how many times you run it)
dataRDD.map(c => println(c))

## spark-logging-good.scala
// This will print to the logs for the executors
dataRDD.map(c => println(c)).collect()

## mongodb-function.js
db.getCollection('patient').find().snapshot().forEach(
  function (p) {
    var lower_middle_name;
    if(p.middle_name) lower_middle_name = p.middle_name.toLowerCase(); else lower_middle_name = null;

    var lower_mrn;
    if(p.mrn) lower_mrn = p.mrn.toLowerCase(); else lower_mrn = null;

    var lower_email_address;
    if(p.email_address) lower_email_address = p.email_address.toLowerCase(); else lower_email_address = null;

## SparkSQLJira.scala
package com.databricks.spark.jira

import scala.io.Source

import org.apache.spark.rdd.RDD

import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.sources.{TableScan, BaseRelation, RelationProvider}

## spark-duplicates.scala
val transactions = spark.read
  .option("header", "true")
  .option("inferSchema", "true")
  .json("s3n://bucket-name/transaction.json")

transactions.groupBy("id", "organization").count.sort($"count".desc).show
	// define your json views
	object MyViews {
	class ViewA {}
	class ViewB {}
	class ViewC {}
	}

	// configure your object mapper
	val mapper = new ObjectMapper with ScalaObjectMapper
	mapper.registerModule(DefaultScalaModule)
	val elastic = injector.getInstance[ElasticClient](
	Key.get(classOf[ElasticClient],
	Names.named("elastic"))
	)
	package com.signalpath.model

	import scala.collection.mutable

	class Forest[A]()(ordering: Ordering[A]) {
	val tree = new mutable.LinkedHashMap[Option[A], mutable.ListBuffer[A]]()

	def addNode(parent: Option[A], node: A): Unit = {
	val children = tree.get(parent).map(_ += node).getOrElse(mutable.ListBuffer[A](node))
	tree.put(parent,children.sorted(ordering))
	def getDateRange(year: Int, week: Int): (LocalDate, LocalDate) = {
	val date = new LocalDate().withYear(year).withWeekOfWeekyear(week)
	val startDate = date.withDayOfWeek(1)
	val endDate = date.withDayOfWeek(7)

	(startDate, endDate)
	}

	val dateFormat = "yyyy-MM-dd E"
	val year = 2016
	// This will not print to your logs (no matter how many times you run it)
	dataRDD.map(c => println(c))
	// This will print to the logs for the executors
	dataRDD.map(c => println(c)).collect()
	db.getCollection('patient').find().snapshot().forEach(
	function (p) {
	var lower_middle_name;
	if(p.middle_name) lower_middle_name = p.middle_name.toLowerCase(); else lower_middle_name = null;

	var lower_mrn;
	if(p.mrn) lower_mrn = p.mrn.toLowerCase(); else lower_mrn = null;

	var lower_email_address;
	if(p.email_address) lower_email_address = p.email_address.toLowerCase(); else lower_email_address = null;
	package com.databricks.spark.jira

	import scala.io.Source

	import org.apache.spark.rdd.RDD

	import org.apache.spark.sql._
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.sources.{TableScan, BaseRelation, RelationProvider}
	val transactions = spark.read
	.option("header", "true")
	.option("inferSchema", "true")
	.json("s3n://bucket-name/transaction.json")

	transactions.groupBy("id", "organization").count.sort($"count".desc).show