fyyying/pyspark_read_dataset_all_formats.py

## pyspark_read_dataset_all_formats.py
path = "https://gist.githubusercontent.com/fyyying/4aa5b471860321d7b47fd881898162b7/raw/e8606de9a82e13ca6215b340ce260dad60469cba/titanic_dataset.csv"

# read in the csv file
df = spark.read.format('csv').load(SparkFiles.get("titanic_dataset.csv"), header=True, inferSchema=True)

# One can read in data from csv/partquet/json... if the path is linked to a parquet or json file
df = spark.read.format('json').load(SparkFiles.get("titanic_dataset.json"), header=True, inferSchema=True)
df = spark.read.format('parquet').load(SparkFiles.get("titanic_dataset.parquet"), header=True, inferSchema=True)
	path = "https://gist.githubusercontent.com/fyyying/4aa5b471860321d7b47fd881898162b7/raw/e8606de9a82e13ca6215b340ce260dad60469cba/titanic_dataset.csv"

	# read in the csv file
	df = spark.read.format('csv').load(SparkFiles.get("titanic_dataset.csv"), header=True, inferSchema=True)

	# One can read in data from csv/partquet/json... if the path is linked to a parquet or json file
	df = spark.read.format('json').load(SparkFiles.get("titanic_dataset.json"), header=True, inferSchema=True)
	df = spark.read.format('parquet').load(SparkFiles.get("titanic_dataset.parquet"), header=True, inferSchema=True)