Former des modèles Spark ML sur Databricks Connect avec `pyspark.ml.connect`

Article
03/01/2024

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article fournit un exemple qui montre comment utiliser le module pyspark.ml.connect pour effectuer une formation distribuée pour former des modèles Spark ML et exécuter l’inférence de modèle sur Databricks Connect.

Qu'est-ce que `pyspark.ml.connect` ?

Spark 3.5 introduit pyspark.ml.connect qui est conçu pour prendre en charge le mode de connexion Spark et Databricks Connect. En savoir plus sur Databricks Connect.

Le module pyspark.ml.connect se compose d’algorithmes et d’utilitaires de formation courants, notamment la classification, les transformateurs de fonctionnalités, les pipelines ML et la validation croisée. Ce module fournit des interfaces semblables au module pyspark.ml hérité, mais le module pyspark.ml.connect contient actuellement uniquement un sous-ensemble des algorithmes danspyspark.ml. Les algorithmes pris en charge sont répertoriés ci-dessous :

Algorithme de classification : pyspark.ml.connect.classification.LogisticRegression
Transformateurs de fonctionnalités : pyspark.ml.connect.feature.MaxAbsScaler et pyspark.ml.connect.feature.StandardScaler
Évaluateur : pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator et MulticlassClassificationEvaluator
Pipeline : pyspark.ml.connect.pipeline.Pipeline
Réglage du modèle : pyspark.ml.connect.tuning.CrossValidator

Spécifications

Configurez Databricks Connect sur vos clusters. Consultez Configuration du cluster pour Databricks Connect.
Databricks Runtime 14.0 ML ou version ultérieure installée.
Mode d’accès au cluster Assigned.

Exemple de bloc-notes

Le notebook suivant montre comment utiliser le ML distribué sur Databricks Connect :

ML distribué sur Databricks Connect

Obtenir le notebook

Pour obtenir des informations de référence sur les API dans pyspark.ml.connect, Databricks recommande la référence de l’API Apache Spark

Former des modèles Spark ML sur Databricks Connect avec pyspark.ml.connect

Qu'est-ce que pyspark.ml.connect ?

Spécifications

Exemple de bloc-notes

ML distribué sur Databricks Connect

Ressources supplémentaires

Former des modèles Spark ML sur Databricks Connect avec `pyspark.ml.connect`

Qu'est-ce que `pyspark.ml.connect` ?