zouzias/sparkDataFrameZipWithIndex.scala

## sparkDataFrameZipWithIndex.scala
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.{StructField,StructType,IntegerType, LongType}

val  df = sc.parallelize(Seq((1.0, 2.0), (0.0, -1.0), (3.0, 4.0), (6.0, -2.3))).toDF("x", "y")

// Append "rowid" column of type Long
val newSchema = StructType(df.schema.fields ++ Array(StructField("rowid", LongType, false)))

// Zip on RDD level
val rddWithId = df.rdd.zipWithIndex
// Convert back to DataFrame
val dfZippedWithId =  spark.createDataFrame(rddWithId.map{ case (row, index) => Row.fromSeq(row.toSeq ++ Array(index))}, newSchema)

// Show results
dfZippedWithId.show
	import org.apache.spark.sql.Row
	import org.apache.spark.sql.types.{StructField,StructType,IntegerType, LongType}

	val df = sc.parallelize(Seq((1.0, 2.0), (0.0, -1.0), (3.0, 4.0), (6.0, -2.3))).toDF("x", "y")

	// Append "rowid" column of type Long
	val newSchema = StructType(df.schema.fields ++ Array(StructField("rowid", LongType, false)))

	// Zip on RDD level
	val rddWithId = df.rdd.zipWithIndex
	// Convert back to DataFrame
	val dfZippedWithId = spark.createDataFrame(rddWithId.map{ case (row, index) => Row.fromSeq(row.toSeq ++ Array(index))}, newSchema)

	// Show results
	dfZippedWithId.show