tly1980/dump_headers.py

## dump_headers.py
from __future__ import print_function
import argparse

from pyspark.context import SparkContext
from pyspark.sql import SparkSession


AP = argparse.ArgumentParser()
AP.add_argument('table')
AP.add_argument('--delimiter', default=',')


def main(args):
  SparkContext._ensure_initialized()

  try:
    # Try to access HiveConf, it will raise exception if Hive is not added
    SparkContext._jvm.org.apache.hadoop.hive.conf.HiveConf()
    spark = SparkSession.builder\
        .enableHiveSupport()\
        .getOrCreate()
  except py4j.protocol.Py4JError:
    spark = SparkSession.builder.getOrCreate()
  except TypeError:
    spark = SparkSession.builder.getOrCreate()

  df = spark.sql('describe {table}'.format(table=args.table))

  headers = [c['col_name'] for c in df.collect()]
  print(args.delimiter.join(headers))


if __name__ == '__main__':
  main(AP.parse_args())
	from __future__ import print_function
	import argparse

	from pyspark.context import SparkContext
	from pyspark.sql import SparkSession


	AP = argparse.ArgumentParser()
	AP.add_argument('table')
	AP.add_argument('--delimiter', default=',')


	def main(args):
	SparkContext._ensure_initialized()

	try:
	# Try to access HiveConf, it will raise exception if Hive is not added
	SparkContext._jvm.org.apache.hadoop.hive.conf.HiveConf()
	spark = SparkSession.builder\
	.enableHiveSupport()\
	.getOrCreate()
	except py4j.protocol.Py4JError:
	spark = SparkSession.builder.getOrCreate()
	except TypeError:
	spark = SparkSession.builder.getOrCreate()

	df = spark.sql('describe {table}'.format(table=args.table))

	headers = [c['col_name'] for c in df.collect()]
	print(args.delimiter.join(headers))


	if __name__ == '__main__':
	main(AP.parse_args())