lakshay-arora/spark-sql2.py

## spark-sql2.py
# create spark sql context
sql_context = SQLContext(sc)

# split the data
csv_rdd = raw_data.map(lambda row: row.split(','))

# top 2 rows
csv_rdd.take(2)

# map the datatypes of each column
parsed = csv_rdd.map(lambda r : Row( age = int(r[0]),
                                     blood_group = r[1],
                                     city = r[2],
                                     gender = r[3],
                                     id_ = int(r[4])))
# top 5 rows
parsed.take(5)
	# create spark sql context
	sql_context = SQLContext(sc)

	# split the data
	csv_rdd = raw_data.map(lambda row: row.split(','))

	# top 2 rows
	csv_rdd.take(2)

	# map the datatypes of each column
	parsed = csv_rdd.map(lambda r : Row( age = int(r[0]),
	blood_group = r[1],
	city = r[2],
	gender = r[3],
	id_ = int(r[4])))
	# top 5 rows
	parsed.take(5)