kovid-r/pyspark_cheatsheet_read_all.py

## pyspark_cheatsheet_read_all.py
# Reading a csv file - all of these methods work the same for all the different formats
df = spark.read.csv(csv_file_path)
df = spark.read.format('csv').options(header=True,inferSchema=True).load(csv_file_path)
df = spark.read.format('csv').options(header='True',inferSchema='True').load(csv_file_path)
df = spark.read.format('CSV').options(header='true',inferSchema='true').load(csv_file_path)
df = spark.read.csv(file_path, header=True)
df = spark.read.csv(file_path, header='true')

# Reading a json file
df = spark.read.json(json_file_path)

# Reading a text file
df = spark.read.text(text_file_path)

# Reading a parquet file
df = spark.read.load(parquet_file_path) # or
df = spark.read.parquet(parquet_file_path)

# Reading a delta lake file
df = spark.read.format("delta").load(delta_lake_file_path)
	# Reading a csv file - all of these methods work the same for all the different formats
	df = spark.read.csv(csv_file_path)
	df = spark.read.format('csv').options(header=True,inferSchema=True).load(csv_file_path)
	df = spark.read.format('csv').options(header='True',inferSchema='True').load(csv_file_path)
	df = spark.read.format('CSV').options(header='true',inferSchema='true').load(csv_file_path)
	df = spark.read.csv(file_path, header=True)
	df = spark.read.csv(file_path, header='true')

	# Reading a json file
	df = spark.read.json(json_file_path)

	# Reading a text file
	df = spark.read.text(text_file_path)

	# Reading a parquet file
	df = spark.read.load(parquet_file_path) # or
	df = spark.read.parquet(parquet_file_path)

	# Reading a delta lake file
	df = spark.read.format("delta").load(delta_lake_file_path)