使用 pyspark.ml.connect
在 Databricks Connect 上訓練 Spark ML 模型
重要
這項功能處於公開預覽狀態。
本文提供範例,示範如何使用 pyspark.ml.connect
模組來執行分散式訓練,以訓練 Spark ML 模型,並在 Databricks Connect 上執行模型推斷。
什麼是 pyspark.ml.connect
?
Spark 3.5 引入了 pyspark.ml.connect
,它專為支援 Spark 連線模式和 Databricks Connect 而設計。 深入了解 Databricks Connect。
pyspark.ml.connect
模組包含常見的學習演算法和公用程式,包括分類、功能轉換器、ML 管線和交叉驗證。 此模組提供與舊版 pyspark.ml
模組類似的介面,但 pyspark.ml.connect
模組目前只包含 pyspark.ml
中演算法的子集。 支援的演算法如下:
- 分類演算法:
pyspark.ml.connect.classification.LogisticRegression
- 功能轉換器:
pyspark.ml.connect.feature.MaxAbsScaler
和pyspark.ml.connect.feature.StandardScaler
- 評估工具:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
和MulticlassClassificationEvaluator
- 管線:
pyspark.ml.connect.pipeline.Pipeline
- 模型微調:
pyspark.ml.connect.tuning.CrossValidator
需求
- 在您的叢集上設定 Databricks Connect。 請參閱 Databricks Connect 的叢集設定。
- 已安裝 Databricks Runtime 14.0 ML 或更高版本。
Assigned
的叢集存取模式。
範例筆記本
下列筆記本示範如何在 Databricks Connect 上使用分散式機器學習:
Databricks Connect 上的分散式機器學習
如需 pyspark.ml.connect
中 API 的參考資訊,Databricks 建議 Apache Spark API 參考