Trainieren von Spark ML-Modellen in Databricks Connect mit pyspark.ml.connect

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird ein Beispiel bereitgestellt, das veranschaulicht, wie Sie das pyspark.ml.connect-Modul verwenden, um verteiltes Training durchzuführen, um Spark ML-Modelle zu trainieren und den Modellrückschluss in Databricks Connect auszuführen.

Was ist pyspark.ml.connect?

Spark 3.5 führt das pyspark.ml.connect-Modell ein, das für die Unterstützung des Spark Connect-Modus und von Databricks Connect entwickelt wurde. Weitere Informationen zu Databricks Connect.

Das pyspark.ml.connect-Modul besteht aus allgemeinen Lernalgorithmen und Hilfsprogrammen, einschließlich Klassifizierung, Funktionstransformatoren, ML-Pipelines und Kreuzvalidierung. Dieses Modul bietet ähnliche Schnittstellen zum älteren pyspark.ml-Modul, aber das pyspark.ml.connect-Modul enthält derzeit nur eine Teilmenge der Algorithmen in pyspark.ml. Es werden die folgenden Algorithmen unterstützt:

  • Klassifizierungsalgorithmus: pyspark.ml.connect.classification.LogisticRegression
  • Featuretransformatoren: pyspark.ml.connect.feature.MaxAbsScaler und pyspark.ml.connect.feature.StandardScaler
  • Auswerter: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator und MulticlassClassificationEvaluator
  • Pipeline: pyspark.ml.connect.pipeline.Pipeline
  • Modelloptimierung: pyspark.ml.connect.tuning.CrossValidator

Anforderungen

  • Richten Sie Databricks Connect auf Ihren Clustern ein. Weitere Informationen finden Sie unter Clusterkonfiguration für Databricks Connect.
  • Databricks Runtime 14.0 ML oder höher ist installiert.
  • Clusterzugriffsmodus von Assigned.

Notebook mit Beispielen

Das folgende Notebook veranschaulicht die Verwendung von verteiltem ML auf Databricks Connect:

Verteiltes ML auf Databricks Connect

Notebook abrufen

Für Referenzinformationen zu APIs in pyspark.ml.connect empfiehlt Databricks die Apache Spark API-Referenz