andreatbonanno/CreateHiveTableWithPartitions.scala

## CreateHiveTableWithPartitions.scala
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.sql.SparkSession

def listHdpFiles(filePath: String, excludeFilesFrom: String = ""): Array[String] = {
  FileSystem
    .get(sc.hadoopConfiguration)
    .listStatus(new Path(filePath))
    .map(fileStatus => fileStatus.getPath.toString)
    .filter(filePath => filePath > excludeFilesFrom)
}

def createHiveTable(filePath: String, db: String, table: String, filtering: (String) => Boolean, partitioningField: String) = {
  spark.sqlContext.createExternalTable(s"${db}.${table}", filePath)
  listHdpFiles(filePath)
    .filter(filtering)
    .map { partition =>
      spark.sql(s"ALTER TABLE ${db}.${table} ADD PARTITION(${partitioningTerm}='${partition.split("=").last}')")
    }
}

createHiveTable("hdfs://cluster/partitionedFile/", "db", "table", (x: String) => x.contains("partitioningField"), "partitioningField")
	import org.apache.hadoop.fs.{FileSystem, Path}
	import org.apache.spark.sql.SparkSession

	def listHdpFiles(filePath: String, excludeFilesFrom: String = ""): Array[String] = {
	FileSystem
	.get(sc.hadoopConfiguration)
	.listStatus(new Path(filePath))
	.map(fileStatus => fileStatus.getPath.toString)
	.filter(filePath => filePath > excludeFilesFrom)
	}

	def createHiveTable(filePath: String, db: String, table: String, filtering: (String) => Boolean, partitioningField: String) = {
	spark.sqlContext.createExternalTable(s"${db}.${table}", filePath)
	listHdpFiles(filePath)
	.filter(filtering)
	.map { partition =>
	spark.sql(s"ALTER TABLE ${db}.${table} ADD PARTITION(${partitioningTerm}='${partition.split("=").last}')")
	}
	}

	createHiveTable("hdfs://cluster/partitionedFile/", "db", "table", (x: String) => x.contains("partitioningField"), "partitioningField")