Former des modèles Spark ML sur Databricks Connect avec pyspark.ml.connect

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article fournit un exemple qui montre comment utiliser le module pyspark.ml.connect pour effectuer une formation distribuée pour former des modèles Spark ML et exécuter l’inférence de modèle sur Databricks Connect.

Qu'est-ce que pyspark.ml.connect ?

Spark 3.5 introduit pyspark.ml.connect qui est conçu pour prendre en charge le mode de connexion Spark et Databricks Connect. En savoir plus sur Databricks Connect.

Le module pyspark.ml.connect se compose d’algorithmes et d’utilitaires de formation courants, notamment la classification, les transformateurs de fonctionnalités, les pipelines ML et la validation croisée. Ce module fournit des interfaces semblables au module pyspark.ml hérité, mais le module pyspark.ml.connect contient actuellement uniquement un sous-ensemble des algorithmes danspyspark.ml. Les algorithmes pris en charge sont répertoriés ci-dessous :

  • Algorithme de classification : pyspark.ml.connect.classification.LogisticRegression
  • Transformateurs de fonctionnalités : pyspark.ml.connect.feature.MaxAbsScaler et pyspark.ml.connect.feature.StandardScaler
  • Évaluateur : pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator et MulticlassClassificationEvaluator
  • Pipeline : pyspark.ml.connect.pipeline.Pipeline
  • Réglage du modèle : pyspark.ml.connect.tuning.CrossValidator

Spécifications

Exemple de bloc-notes

Le notebook suivant montre comment utiliser le ML distribué sur Databricks Connect :

ML distribué sur Databricks Connect

Obtenir le notebook

Pour obtenir des informations de référence sur les API dans pyspark.ml.connect, Databricks recommande la référence de l’API Apache Spark