chetkhatri/upsert.scala

## upsert.scala
object DedupWriter extends Serializable {
  def upsertIntoDeduped(microBatchOutput: DataFrame, batchId: Long): Unit = {
    DeltaTable.forPath("/mnt/somebucket/ip_index_deduped_updates.delta").as("out")
      .merge(
        microBatchOutput.as("in"),
        // all columns match
      )
      .whenNotMatched.insertAll.execute
  }
}
spark
  .readStream
  .format("delta")
  .option("ignoreChanges", true)
  .load("/mnt/aggregates/prod/some_table_that_receives_upserts.delta")
  .writeStream
  .outputMode("append")
  .option("checkpointLocation", CHECKPOINT_PATH)
  .foreachBatch(DedupWriter.upsertIntoDeduped _)
  .start()
	object DedupWriter extends Serializable {
	def upsertIntoDeduped(microBatchOutput: DataFrame, batchId: Long): Unit = {
	DeltaTable.forPath("/mnt/somebucket/ip_index_deduped_updates.delta").as("out")
	.merge(
	microBatchOutput.as("in"),
	// all columns match
	)
	.whenNotMatched.insertAll.execute
	}
	}
	spark
	.readStream
	.format("delta")
	.option("ignoreChanges", true)
	.load("/mnt/aggregates/prod/some_table_that_receives_upserts.delta")
	.writeStream
	.outputMode("append")
	.option("checkpointLocation", CHECKPOINT_PATH)
	.foreachBatch(DedupWriter.upsertIntoDeduped _)
	.start()