Bagikan melalui


Melatih model Spark ML di Databricks Koneksi denganpyspark.ml.connect

Penting

Fitur ini ada di Pratinjau Publik.

Artikel ini memberikan contoh yang menunjukkan cara menggunakan pyspark.ml.connect modul untuk melakukan pelatihan terdistribusi untuk melatih model Spark ML dan menjalankan inferensi model pada Databricks Koneksi.

Apa itu pyspark.ml.connect?

Spark 3.5 memperkenalkan pyspark.ml.connect yang dirancang untuk mendukung mode koneksi Spark dan Databricks Koneksi. Pelajari selengkapnya tentang databricks Koneksi.

Modul ini pyspark.ml.connect terdiri dari algoritma dan utilitas pembelajaran umum, termasuk klasifikasi, transformator fitur, alur ML, dan validasi silang. Modul ini menyediakan antarmuka serupa dengan modul warisanpyspark.ml, tetapi pyspark.ml.connect modul saat ini hanya berisi subset algoritma di pyspark.ml. Algoritma yang didukung tercantum di bawah ini:

  • Algoritma klasifikasi: pyspark.ml.connect.classification.LogisticRegression
  • Transformer fitur: pyspark.ml.connect.feature.MaxAbsScaler dan pyspark.ml.connect.feature.StandardScaler
  • Evaluator: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator dan MulticlassClassificationEvaluator
  • Pipa: pyspark.ml.connect.pipeline.Pipeline
  • Penyetelan model: pyspark.ml.connect.tuning.CrossValidator

Persyaratan

Contoh notebook

Notebook berikut menunjukkan cara menggunakan ML Terdistribusi di Databricks Koneksi:

ML terdistribusi pada Databricks Koneksi

Dapatkan buku catatan

Untuk informasi referensi tentang API di pyspark.ml.connect, Databricks merekomendasikan referensi API Apache Spark