Dela via


Träna Spark ML-modeller på Databricks Connect med pyspark.ml.connect

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln innehåller ett exempel som visar hur du använder modulen pyspark.ml.connect för att utföra distribuerad träning för att träna Spark ML-modeller och köra modellinferens på Databricks Connect.

Vad är pyspark.ml.connect?

Spark 3.5 introducerar pyspark.ml.connect som är utformat för stöd för Spark-anslutningsläge och Databricks Connect. Läs mer om Databricks Connect.

Modulen pyspark.ml.connect består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, funktionstransformatorer, ML-pipelines och korsvalidering. Den här modulen tillhandahåller liknande gränssnitt som den äldre pyspark.ml modulen, men modulen pyspark.ml.connect innehåller för närvarande bara en delmängd av algoritmerna i pyspark.ml. De algoritmer som stöds visas nedan:

  • Klassificeringsalgoritm: pyspark.ml.connect.classification.LogisticRegression
  • Funktionstransformatorer: pyspark.ml.connect.feature.MaxAbsScaler och pyspark.ml.connect.feature.StandardScaler
  • Utvärderare: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator och MulticlassClassificationEvaluator
  • Rörledning: pyspark.ml.connect.pipeline.Pipeline
  • Modelljustering: pyspark.ml.connect.tuning.CrossValidator

Krav

Exempelnotebook-fil

Följande notebook-fil visar hur du använder distribuerad ML på Databricks Connect:

Distribuerad ML på Databricks Connect

Hämta notebook-fil

För referensinformation om API:er i pyspark.ml.connectrekommenderar Databricks Apache Spark API-referensen