Squaid squaidapp

## gist:4780667a604537d3a2ca5dcfc5ec72f4
# Importamos las librerías necesarias
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import GBTClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

## gist:a273a3029f80c7c1355055eb3142b0a6
# Creamos una sesión de Spark
spark = SparkSession.builder.appName("GBTClassifier").getOrCreate()

## gist:d613995b4a2505deb149aeaf3e82cf12
# Cargamos el conjunto de datos (usaremos el conjunto de datos "Iris" de UCI)
data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")

## GBT Squaid Example
# Seleccionamos las columnas necesarias y las renombramos
data = data.selectExpr("_c0 as sepal_length", "_c1 as sepal_width", "_c2 as petal_length", "_c3 as petal_width", "_c4 as species")

## gist:808e28bc0015e196cbadac45b08e9ed2
# Convertimos las variables de entrada en un vector de características
assembler = VectorAssembler(inputCols=["sepal_length", "sepal_width", "petal_length", "petal_width"], outputCol="features")
data = assembler.transform(data)

## GBT Squaid Example
# Convertimos la variable objetivo en un índice numérico
labelIndexer = StringIndexer(inputCol="species", outputCol="label")
data = labelIndexer.fit(data).transform(data)

## GBT Squaid Example
# Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba
(trainingData, testData) = data.randomSplit([0.7, 0.3], seed=123)

## GBT Squaid Example
# Creamos un modelo de Gradient Boosted Trees
gbt = GBTClassifier(labelCol="label", featuresCol="features", maxIter=10)

## GBT Squaid Example
# Entrenamos el modelo con el conjunto de entrenamiento
model = gbt.fit(trainingData)

## GBT Squaid Example
# Obtenemos las predicciones con el conjunto de prueba
predictions = model.transform(testData)
	# Importamos las librerías necesarias
	from pyspark.sql import SparkSession
	from pyspark.ml.feature import VectorAssembler
	from pyspark.ml.classification import GBTClassifier
	from pyspark.ml.evaluation import MulticlassClassificationEvaluator
	# Creamos una sesión de Spark
	spark = SparkSession.builder.appName("GBTClassifier").getOrCreate()
	# Cargamos el conjunto de datos (usaremos el conjunto de datos "Iris" de UCI)
	data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
	# Seleccionamos las columnas necesarias y las renombramos
	data = data.selectExpr("_c0 as sepal_length", "_c1 as sepal_width", "_c2 as petal_length", "_c3 as petal_width", "_c4 as species")
	# Convertimos las variables de entrada en un vector de características
	assembler = VectorAssembler(inputCols=["sepal_length", "sepal_width", "petal_length", "petal_width"], outputCol="features")
	data = assembler.transform(data)
	# Convertimos la variable objetivo en un índice numérico
	labelIndexer = StringIndexer(inputCol="species", outputCol="label")
	data = labelIndexer.fit(data).transform(data)
	# Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba
	(trainingData, testData) = data.randomSplit([0.7, 0.3], seed=123)
	# Creamos un modelo de Gradient Boosted Trees
	gbt = GBTClassifier(labelCol="label", featuresCol="features", maxIter=10)
	# Entrenamos el modelo con el conjunto de entrenamiento
	model = gbt.fit(trainingData)
	# Obtenemos las predicciones con el conjunto de prueba
	predictions = model.transform(testData)