Spark ML-modellek betanítása a Databricks Csatlakozás apyspark.ml.connect

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

Ez a cikk egy példát mutat be, amely bemutatja, hogyan használható a pyspark.ml.connect modul elosztott betanításra Spark ML-modellek betanítására és modellkövetkeztetés futtatására a Databricks Csatlakozás.

Mi a(z) pyspark.ml.connect?

A Spark 3.5 a pyspark.ml.connect Spark connect mód és a Databricks Csatlakozás támogatásához készült. További információ a Databricks Csatlakozás.

A pyspark.ml.connect modul általános tanulási algoritmusokból és segédprogramokból áll, beleértve a besorolást, a funkciótranszformátorokat, az ML-folyamatokat és a keresztérvényesítést. Ez a modul hasonló interfészeket biztosít az örökölt pyspark.ml modulhoz, de a pyspark.ml.connect modul jelenleg csak az algoritmusok pyspark.mlegy részét tartalmazza. A támogatott algoritmusok az alábbiakban találhatók:

  • Besorolási algoritmus: pyspark.ml.connect.classification.LogisticRegression
  • Funkciótranszformátorok: pyspark.ml.connect.feature.MaxAbsScaler és pyspark.ml.connect.feature.StandardScaler
  • Kiértékelő: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator és MulticlassClassificationEvaluator
  • Csővezeték: pyspark.ml.connect.pipeline.Pipeline
  • Modell finomhangolása: pyspark.ml.connect.tuning.CrossValidator

Requirements

  • Állítsa be a Databricks Csatlakozás a fürtökön. Lásd a Databricks Csatlakozás fürtkonfigurációját.
  • A Databricks Runtime 14.0 ML vagy újabb verziója telepítve van.
  • Fürthozzáférés módja: Assigned.

Példajegyzetfüzet

Az alábbi jegyzetfüzet bemutatja, hogyan használható az Elosztott gépi tanulás a Databricks Csatlakozás:

Elosztott gépi tanulás a Databricks Csatlakozás

Jegyzetfüzet beszerzése

A Databricks az API-kkal pyspark.ml.connectkapcsolatos referenciainformációkért az Apache Spark API-referencia használatát javasolja