Ben-Epstein/Build Spark Model.py

## Build Spark Model.py
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml import Pipeline

va = VectorAssembler(inputCols=cols[:-1], outputCol='features') # Define feature vector
dt = DecisionTreeClassifier() # Define model
pipeline = Pipeline(stages=[va, dt]) # Chain steps together into a full pipeline

train, test = df.randomSplit([0.8,0.2])
model = pipeline.fit(train)
print(model)
	from pyspark.ml.feature import VectorAssembler
	from pyspark.ml.classification import DecisionTreeClassifier
	from pyspark.ml import Pipeline

	va = VectorAssembler(inputCols=cols[:-1], outputCol='features') # Define feature vector
	dt = DecisionTreeClassifier() # Define model
	pipeline = Pipeline(stages=[va, dt]) # Chain steps together into a full pipeline

	train, test = df.randomSplit([0.8,0.2])
	model = pipeline.fit(train)
	print(model)