Trainieren von Spark ML-Modellen in Databricks Connect mit `pyspark.ml.connect`

Artikel
03/01/2024

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird ein Beispiel bereitgestellt, das veranschaulicht, wie Sie das pyspark.ml.connect-Modul verwenden, um verteiltes Training durchzuführen, um Spark ML-Modelle zu trainieren und den Modellrückschluss in Databricks Connect auszuführen.

Was ist `pyspark.ml.connect`?

Spark 3.5 führt das pyspark.ml.connect-Modell ein, das für die Unterstützung des Spark Connect-Modus und von Databricks Connect entwickelt wurde. Weitere Informationen zu Databricks Connect.

Das pyspark.ml.connect-Modul besteht aus allgemeinen Lernalgorithmen und Hilfsprogrammen, einschließlich Klassifizierung, Funktionstransformatoren, ML-Pipelines und Kreuzvalidierung. Dieses Modul bietet ähnliche Schnittstellen zum älteren pyspark.ml-Modul, aber das pyspark.ml.connect-Modul enthält derzeit nur eine Teilmenge der Algorithmen in pyspark.ml. Es werden die folgenden Algorithmen unterstützt:

Klassifizierungsalgorithmus: pyspark.ml.connect.classification.LogisticRegression
Featuretransformatoren: pyspark.ml.connect.feature.MaxAbsScaler und pyspark.ml.connect.feature.StandardScaler
Auswerter: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator und MulticlassClassificationEvaluator
Pipeline: pyspark.ml.connect.pipeline.Pipeline
Modelloptimierung: pyspark.ml.connect.tuning.CrossValidator

Anforderungen

Richten Sie Databricks Connect auf Ihren Clustern ein. Weitere Informationen finden Sie unter Clusterkonfiguration für Databricks Connect.
Databricks Runtime 14.0 ML oder höher ist installiert.
Clusterzugriffsmodus von Assigned.

Notebook mit Beispielen

Das folgende Notebook veranschaulicht die Verwendung von verteiltem ML auf Databricks Connect:

Verteiltes ML auf Databricks Connect

Notebook abrufen

Für Referenzinformationen zu APIs in pyspark.ml.connect empfiehlt Databricks die Apache Spark API-Referenz

Trainieren von Spark ML-Modellen in Databricks Connect mit pyspark.ml.connect

Was ist pyspark.ml.connect?

Anforderungen

Notebook mit Beispielen

Verteiltes ML auf Databricks Connect

Zusätzliche Ressourcen

Trainieren von Spark ML-Modellen in Databricks Connect mit `pyspark.ml.connect`

Was ist `pyspark.ml.connect`?