Entrenamiento de modelos de Spark ML en Databricks Connect con `pyspark.ml.connect`

Artículo
03/01/2024

Importante

Esta característica está en versión preliminar pública.

En este artículo, se proporciona un ejemplo que muestra cómo usar el módulo pyspark.ml.connect para realizar el entrenamiento distribuido para entrenar modelos de Spark ML y ejecutar la inferencia de modelos en Databricks Connect.

¿Qué es `pyspark.ml.connect`?

Spark 3.5 presenta pyspark.ml.connect, que está diseñado para admitir el modo de conexión de Spark y Databricks Connect. Obtenga más información sobre Databricks Connect.

El módulo pyspark.ml.connect consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, los transformadores de características, las canalizaciones de ML y la validación cruzada. Este módulo proporciona interfaces similares al módulo heredado pyspark.ml, pero actualmente el módulo pyspark.ml.connect solo contiene un subconjunto de los algoritmos de pyspark.ml. A continuación, se enumeran los algoritmos admitidos:

Algoritmo de clasificación: pyspark.ml.connect.classification.LogisticRegression
Transformadores de características: pyspark.ml.connect.feature.MaxAbsScaler y pyspark.ml.connect.feature.StandardScaler
Evaluador: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator y MulticlassClassificationEvaluator
Canalización: pyspark.ml.connect.pipeline.Pipeline
Ajuste de modelos: pyspark.ml.connect.tuning.CrossValidator

Requisitos

Configure Databricks Connect en los clústeres. Consulte Configuración del clúster para Databricks Connect.
Databricks Runtime 14.0 ML o superior instalado.
Modo de acceso al clúster de Assigned.

Cuaderno de ejemplo

En el cuaderno siguiente, se muestra cómo usar Distributed ML en Databricks Connect:

Distributed ML en Databricks Connect

Obtener el cuaderno

Para obtener información de referencia sobre las API en pyspark.ml.connect, Databricks recomienda la referencia de la API de Apache Spark

Share via

Entrenamiento de modelos de Spark ML en Databricks Connect con `pyspark.ml.connect`

¿Qué es `pyspark.ml.connect`?

Requisitos

Cuaderno de ejemplo

Distributed ML en Databricks Connect

Recursos adicionales

Share via

Entrenamiento de modelos de Spark ML en Databricks Connect con pyspark.ml.connect

¿Qué es pyspark.ml.connect?

Requisitos

Cuaderno de ejemplo

Distributed ML en Databricks Connect

Recursos adicionales

Entrenamiento de modelos de Spark ML en Databricks Connect con `pyspark.ml.connect`

¿Qué es `pyspark.ml.connect`?