aialenti/explode.py

## explode.py
#   Read the source tables in Parquet format
sales_table = spark.read.parquet("./data/sales_parquet")

'''
CREATE TABLE sales_table_aggregated AS
SELECT COLLECT_SET(num_pieces_sold) AS num_pieces_sold_set,
       seller_id
FROM sales_table
GROUP BY seller_id;

SELECT EXPLODE(num_pieces_sold_set) AS exploded_num_pieces_set
FROM sales_table_aggregated;
'''
sales_table_execution_aggregated = sales_table.groupBy(col("seller_id")).agg(
    collect_set(col("num_pieces_sold")).alias("num_pieces_sold_set")
)

sales_table_execution_exploded = sales_table_execution_aggregated.select(
    explode(col("num_pieces_sold_set")).alias("exploded_num_pieces_set")
)

sales_table_execution_exploded.show(10, True)
	# Read the source tables in Parquet format
	sales_table = spark.read.parquet("./data/sales_parquet")

	'''
	CREATE TABLE sales_table_aggregated AS
	SELECT COLLECT_SET(num_pieces_sold) AS num_pieces_sold_set,
	seller_id
	FROM sales_table
	GROUP BY seller_id;

	SELECT EXPLODE(num_pieces_sold_set) AS exploded_num_pieces_set
	FROM sales_table_aggregated;
	'''
	sales_table_execution_aggregated = sales_table.groupBy(col("seller_id")).agg(
	collect_set(col("num_pieces_sold")).alias("num_pieces_sold_set")
	)

	sales_table_execution_exploded = sales_table_execution_aggregated.select(
	explode(col("num_pieces_sold_set")).alias("exploded_num_pieces_set")
	)

	sales_table_execution_exploded.show(10, True)