共用方式為


使用 pyspark.ml.connect 在 Databricks Connect 上訓練 Spark ML 模型

重要

這項功能處於公開預覽狀態

本文提供範例,示範如何使用 pyspark.ml.connect 模組來執行分散式訓練,以訓練 Spark ML 模型,並在 Databricks Connect 上執行模型推斷。

什麼是 pyspark.ml.connect

Spark 3.5 引入了 pyspark.ml.connect,它專為支援 Spark 連線模式和 Databricks Connect 而設計。 深入了解 Databricks Connect

pyspark.ml.connect 模組包含常見的學習演算法和公用程式,包括分類、功能轉換器、ML 管線和交叉驗證。 此模組提供與舊版 pyspark.ml 模組類似的介面,但 pyspark.ml.connect 模組目前只包含 pyspark.ml 中演算法的子集。 支援的演算法如下:

  • 分類演算法:pyspark.ml.connect.classification.LogisticRegression
  • 功能轉換器:pyspark.ml.connect.feature.MaxAbsScalerpyspark.ml.connect.feature.StandardScaler
  • 評估工具:pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • 管線:pyspark.ml.connect.pipeline.Pipeline
  • 模型微調:pyspark.ml.connect.tuning.CrossValidator

需求

  • 在您的叢集上設定 Databricks Connect。 請參閱 Databricks Connect 的叢集設定
  • 已安裝 Databricks Runtime 14.0 ML 或更高版本。
  • Assigned 的叢集存取模式。

範例筆記本

下列筆記本示範如何在 Databricks Connect 上使用分散式機器學習:

Databricks Connect 上的分散式機器學習

取得筆記本

如需 pyspark.ml.connect 中 API 的參考資訊,Databricks 建議 Apache Spark API 參考