sharathgrao/rdd_to_dataframe_spark.py

## rdd_to_dataframe_spark.py
from pyspark.sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder.appName("RDD to DataFrame").getOrCreate()

# Create an example RDD
data = [("Alice", 25), ("Bob", 30), ("Charlie", 28)]
rdd = spark.sparkContext.parallelize(data)

# Define column names
column_names = ["name", "age"]

# Convert RDD to DataFrame with column names
df = rdd.toDF(column_names)

# Display the DataFrame
df.show()

# Stop the SparkSession
spark.stop()
	from pyspark.sql import SparkSession

	# Create a SparkSession
	spark = SparkSession.builder.appName("RDD to DataFrame").getOrCreate()

	# Create an example RDD
	data = [("Alice", 25), ("Bob", 30), ("Charlie", 28)]
	rdd = spark.sparkContext.parallelize(data)

	# Define column names
	column_names = ["name", "age"]

	# Convert RDD to DataFrame with column names
	df = rdd.toDF(column_names)

	# Display the DataFrame
	df.show()

	# Stop the SparkSession
	spark.stop()