Melatih model Spark ML di Databricks Koneksi denganpyspark.ml.connect
Penting
Fitur ini ada di Pratinjau Publik.
Artikel ini memberikan contoh yang menunjukkan cara menggunakan pyspark.ml.connect
modul untuk melakukan pelatihan terdistribusi untuk melatih model Spark ML dan menjalankan inferensi model pada Databricks Koneksi.
Apa itu pyspark.ml.connect
?
Spark 3.5 memperkenalkan pyspark.ml.connect
yang dirancang untuk mendukung mode koneksi Spark dan Databricks Koneksi. Pelajari selengkapnya tentang databricks Koneksi.
Modul ini pyspark.ml.connect
terdiri dari algoritma dan utilitas pembelajaran umum, termasuk klasifikasi, transformator fitur, alur ML, dan validasi silang. Modul ini menyediakan antarmuka serupa dengan modul warisanpyspark.ml
, tetapi pyspark.ml.connect
modul saat ini hanya berisi subset algoritma di pyspark.ml
. Algoritma yang didukung tercantum di bawah ini:
- Algoritma klasifikasi:
pyspark.ml.connect.classification.LogisticRegression
- Transformer fitur:
pyspark.ml.connect.feature.MaxAbsScaler
danpyspark.ml.connect.feature.StandardScaler
- Evaluator:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
danMulticlassClassificationEvaluator
- Pipa:
pyspark.ml.connect.pipeline.Pipeline
- Penyetelan model:
pyspark.ml.connect.tuning.CrossValidator
Persyaratan
- Siapkan databricks Koneksi pada kluster Anda. Lihat Konfigurasi kluster untuk databricks Koneksi.
- Databricks Runtime 14.0 ML atau yang lebih tinggi terinstal.
- Mode akses kluster dari
Assigned
.
Contoh notebook
Notebook berikut menunjukkan cara menggunakan ML Terdistribusi di Databricks Koneksi:
ML terdistribusi pada Databricks Koneksi
Untuk informasi referensi tentang API di pyspark.ml.connect
, Databricks merekomendasikan referensi API Apache Spark