lakshay-arora/pipeline_1_pyspark.py

## pipeline_1_pyspark.py
from pyspark.ml import Pipeline

# create a sample dataframe
sample_df = spark.createDataFrame([
    (1, 'L101', 'R'),
    (2, 'L201', 'C'),
    (3, 'D111', 'R'),
    (4, 'F210', 'R'),
    (5, 'D110', 'C')
], ['id', 'category_1', 'category_2'])

sample_df.show()
	from pyspark.ml import Pipeline

	# create a sample dataframe
	sample_df = spark.createDataFrame([
	(1, 'L101', 'R'),
	(2, 'L201', 'C'),
	(3, 'D111', 'R'),
	(4, 'F210', 'R'),
	(5, 'D110', 'C')
	], ['id', 'category_1', 'category_2'])

	sample_df.show()