afranzi/sparkWinePrediction.py

## sparkWinePrediction.py
import mlflow.pyfunc

model_path = 's3://<bucket>/mlflow/artifacts/1/0f8691808e914d1087cf097a08730f17/artifacts/model'
wine_path = '/Users/afranzi/Projects/data/winequality-red.csv'
wine_udf = mlflow.pyfunc.spark_udf(spark, model_path)

df = spark.read.format("csv").option("header", "true").option('delimiter', ';').load(wine_path)
columns = [ "fixed acidity", "volatile acidity", "citric acid",
            "residual sugar", "chlorides", "free sulfur dioxide",
            "total sulfur dioxide", "density", "pH",
            "sulphates", "alcohol"
          ]

df.withColumn('prediction', wine_udf(*columns)).show(100, False)
	import mlflow.pyfunc

	model_path = 's3://<bucket>/mlflow/artifacts/1/0f8691808e914d1087cf097a08730f17/artifacts/model'
	wine_path = '/Users/afranzi/Projects/data/winequality-red.csv'
	wine_udf = mlflow.pyfunc.spark_udf(spark, model_path)

	df = spark.read.format("csv").option("header", "true").option('delimiter', ';').load(wine_path)
	columns = [ "fixed acidity", "volatile acidity", "citric acid",
	"residual sugar", "chlorides", "free sulfur dioxide",
	"total sulfur dioxide", "density", "pH",
	"sulphates", "alcohol"
	]

	df.withColumn('prediction', wine_udf(*columns)).show(100, False)