共用方式為


使用 將 Databricks 上的 Spark ML 模型定型連線pyspark.ml.connect

重要

這項功能處於公開預覽狀態

本文提供範例,示範如何使用 pyspark.ml.connect 模組來執行分散式定型,以定型 Spark ML 模型,並在 Databricks 連線上執行模型推斷。

什麼是 pyspark.ml.connect

Spark 3.5 引進了 pyspark.ml.connect 專為支援 Spark 連線模式和 Databricks 連線而設計。 深入瞭解 Databricks 連線

pyspark.ml.connect 課程模組包含常見的學習演算法和公用程式,包括分類、功能轉換器、ML 管線和交叉驗證。 此模組提供與舊版 pyspark.ml 模組 類似的介面,但 pyspark.ml.connect 模組目前只包含 中 pyspark.ml 演算法的子集。 支援的演算法如下所列:

  • 分類演算法: pyspark.ml.connect.classification.LogisticRegression
  • 功能轉換器: pyspark.ml.connect.feature.MaxAbsScalerpyspark.ml.connect.feature.StandardScaler
  • 評估工具: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • 管道: pyspark.ml.connect.pipeline.Pipeline
  • 模型微調: pyspark.ml.connect.tuning.CrossValidator

需求

  • 在叢集上設定 Databricks 連線。 請參閱 Databricks 連線 的叢集設定。
  • 已安裝 Databricks Runtime 14.0 ML 或更高版本。
  • Assigned 叢集存取模式。

範例筆記本

下列筆記本示範如何在 Databricks 連線上使用 Distributed ML:

Databricks 上的分散式 ML 連線

取得筆記本

如需 中 pyspark.ml.connect API 的參考資訊,Databricks 建議 Apache Spark API 參考