使用 將 Databricks 上的 Spark ML 模型定型連線pyspark.ml.connect
重要
這項功能處於公開預覽狀態。
本文提供範例,示範如何使用 pyspark.ml.connect
模組來執行分散式定型,以定型 Spark ML 模型,並在 Databricks 連線上執行模型推斷。
什麼是 pyspark.ml.connect
?
Spark 3.5 引進了 pyspark.ml.connect
專為支援 Spark 連線模式和 Databricks 連線而設計。 深入瞭解 Databricks 連線 。
此 pyspark.ml.connect
課程模組包含常見的學習演算法和公用程式,包括分類、功能轉換器、ML 管線和交叉驗證。 此模組提供與舊版 pyspark.ml
模組 類似的介面,但 pyspark.ml.connect
模組目前只包含 中 pyspark.ml
演算法的子集。 支援的演算法如下所列:
- 分類演算法:
pyspark.ml.connect.classification.LogisticRegression
- 功能轉換器:
pyspark.ml.connect.feature.MaxAbsScaler
和pyspark.ml.connect.feature.StandardScaler
- 評估工具:
pyspark.ml.connect.RegressionEvaluator
、pyspark.ml.connect.BinaryClassificationEvaluator
和MulticlassClassificationEvaluator
- 管道:
pyspark.ml.connect.pipeline.Pipeline
- 模型微調:
pyspark.ml.connect.tuning.CrossValidator
需求
- 在叢集上設定 Databricks 連線。 請參閱 Databricks 連線 的叢集設定。
- 已安裝 Databricks Runtime 14.0 ML 或更高版本。
- 的
Assigned
叢集存取模式。
範例筆記本
下列筆記本示範如何在 Databricks 連線上使用 Distributed ML:
Databricks 上的分散式 ML 連線
如需 中 pyspark.ml.connect
API 的參考資訊,Databricks 建議 Apache Spark API 參考