lonly197/spark_udf_dataframe_dropDuplicateCols.scala

## spark_udf_dataframe_dropDuplicateCols.scala
import org.apache.spark.sql.DataFrame
import scala.annotation.tailrec

implicit class DataFrameOperations(df: DataFrame) {
  def dropDuplicateCols(rmvDF: DataFrame): DataFrame = {
    val cols = df.columns.groupBy(identity).mapValues(_.size).filter(_._2 > 1).keySet.toSeq

    @tailrec
    def deleteCol(df: DataFrame, cols: Seq[String]): DataFrame = {
      if (cols.size == 0) df else deleteCol(df.drop(rmvDF(cols.head)), cols.tail)
    }
    deleteCol(df, cols)
  }
}

val dupDF = rdd1.join(rdd2,"id").dropDuplicateCols(rdd1)
	import org.apache.spark.sql.DataFrame
	import scala.annotation.tailrec

	implicit class DataFrameOperations(df: DataFrame) {
	def dropDuplicateCols(rmvDF: DataFrame): DataFrame = {
	val cols = df.columns.groupBy(identity).mapValues(_.size).filter(_._2 > 1).keySet.toSeq

	@tailrec
	def deleteCol(df: DataFrame, cols: Seq[String]): DataFrame = {
	if (cols.size == 0) df else deleteCol(df.drop(rmvDF(cols.head)), cols.tail)
	}
	deleteCol(df, cols)
	}
	}

	val dupDF = rdd1.join(rdd2,"id").dropDuplicateCols(rdd1)