geoHeil/foo.scala Secret

## foo.scala
import java.sql.Date

import org.apache.log4j.{ Level, Logger }
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

case class FooBar(foo: Option[Date], bar: String)

object WindowFunctionExample extends App {

  Logger.getLogger("org").setLevel(Level.WARN)

  val conf: SparkConf = new SparkConf()
    .setAppName("foo")
    .setMaster("local[*]")
    .set("spark.default.parallelism", "12") // prototyping on macbook 4 real cores apparently 3* real-cores is good

  val spark: SparkSession = SparkSession
    .builder()
    .config(conf)
    .getOrCreate()

  import spark.implicits._

  val myDf = Seq(("2016-01-01", "first"), ("2016-01-02", "second"),
    ("2016-wrongFormat", "noValidFormat"),
    ("2016-01-04", "lastAssumingSameDate"))
    .toDF("foo", "bar")
    .withColumn("foo", 'foo.cast("Date"))
    .as[FooBar]
  myDf.show

  def notMissing(row: Option[FooBar]): Boolean = row.isDefined && row.get.foo.isDefined

  //  myDf.rdd.filter(x => notMissing(Some(x))).count
  //  println(myDf.rdd.filter(x => notMissing(Some(x))).count)

  val toCarry = myDf.rdd.mapPartitionsWithIndex { case (i, iter) => Iterator((i, iter.filter(x => notMissing(Some(x))).toSeq.lastOption)) }.collectAsMap
  //  println("###################### carry ")
  //    println(toCarry)
  println(toCarry.foreach(println))
  //  println("###################### carry ")
  val toCarryBd = spark.sparkContext.broadcast(toCarry)

  def fill(i: Int, iter: Iterator[FooBar]): Iterator[FooBar] = {
    if (iter.isEmpty) {
      iter
    } else {
      var lastNotNullRow: Option[FooBar] = toCarryBd.value.get(i).get
      while (lastNotNullRow == None) {
        println("choosing next value")
        lastNotNullRow = toCarryBd.value.get(i + 1).get
      }
      iter.map(foo => {
        //        println("original " + foo)
        if ( /*(lastNotNullRow != None) &&*/ (!notMissing(Some(foo)) /*&& (foo.bar != None)*/ )) {
          //          println("replaced")
          // this will go into the default case
          // FooBar(lastNotNullRow.getOrElse(FooBar(Option(Date.valueOf("2016-01-01")), "DUMMY")).foo, foo.bar)
          //          println("last not null value was " + lastNotNullRow)
          FooBar(lastNotNullRow.get.foo, foo.bar) // TODO warning this throws an error
        } else {
          lastNotNullRow = Some(foo)
          foo
        }
      })
    }
  }

  val imputed: RDD[FooBar] = myDf.rdd.mapPartitionsWithIndex { case (i, iter) => fill(i, iter) }
  val imputedDF = imputed.toDS()

  //  println(imputedDF.orderBy($"foo").collect.toList)
  imputedDF.show
  spark.stop
}
	import java.sql.Date

	import org.apache.log4j.{ Level, Logger }
	import org.apache.spark.SparkConf
	import org.apache.spark.rdd.RDD
	import org.apache.spark.sql.SparkSession

	case class FooBar(foo: Option[Date], bar: String)

	object WindowFunctionExample extends App {

	Logger.getLogger("org").setLevel(Level.WARN)

	val conf: SparkConf = new SparkConf()
	.setAppName("foo")
	.setMaster("local[*]")
	.set("spark.default.parallelism", "12") // prototyping on macbook 4 real cores apparently 3* real-cores is good

	val spark: SparkSession = SparkSession
	.builder()
	.config(conf)
	.getOrCreate()

	import spark.implicits._

	val myDf = Seq(("2016-01-01", "first"), ("2016-01-02", "second"),
	("2016-wrongFormat", "noValidFormat"),
	("2016-01-04", "lastAssumingSameDate"))
	.toDF("foo", "bar")
	.withColumn("foo", 'foo.cast("Date"))
	.as[FooBar]
	myDf.show

	def notMissing(row: Option[FooBar]): Boolean = row.isDefined && row.get.foo.isDefined

	// myDf.rdd.filter(x => notMissing(Some(x))).count
	// println(myDf.rdd.filter(x => notMissing(Some(x))).count)

	val toCarry = myDf.rdd.mapPartitionsWithIndex { case (i, iter) => Iterator((i, iter.filter(x => notMissing(Some(x))).toSeq.lastOption)) }.collectAsMap
	// println("###################### carry ")
	// println(toCarry)
	println(toCarry.foreach(println))
	// println("###################### carry ")
	val toCarryBd = spark.sparkContext.broadcast(toCarry)

	def fill(i: Int, iter: Iterator[FooBar]): Iterator[FooBar] = {
	if (iter.isEmpty) {
	iter
	} else {
	var lastNotNullRow: Option[FooBar] = toCarryBd.value.get(i).get
	while (lastNotNullRow == None) {
	println("choosing next value")
	lastNotNullRow = toCarryBd.value.get(i + 1).get
	}
	iter.map(foo => {
	// println("original " + foo)
	if ( /(lastNotNullRow != None) &&/ (!notMissing(Some(foo)) /&& (foo.bar != None)/ )) {
	// println("replaced")
	// this will go into the default case
	// FooBar(lastNotNullRow.getOrElse(FooBar(Option(Date.valueOf("2016-01-01")), "DUMMY")).foo, foo.bar)
	// println("last not null value was " + lastNotNullRow)
	FooBar(lastNotNullRow.get.foo, foo.bar) // TODO warning this throws an error
	} else {
	lastNotNullRow = Some(foo)
	foo
	}
	})
	}
	}

	val imputed: RDD[FooBar] = myDf.rdd.mapPartitionsWithIndex { case (i, iter) => fill(i, iter) }
	val imputedDF = imputed.toDS()

	// println(imputedDF.orderBy($"foo").collect.toList)
	imputedDF.show
	spark.stop
	}