Penyetelan hiperparameter

Pustaka Python seperti Optuna, Ray Tune, dan Hyperopt menyederhanakan dan mengotomatiskan penyetelan hiperparameter untuk menemukan serangkaian hiperparameter yang optimal secara efisien untuk model pembelajaran mesin. Pustaka ini menskalakan di beberapa komputasi untuk menemukan hiperparameter dengan cepat dengan orkestrasi manual minimal dan persyaratan konfigurasi.

Optuna

Optuna adalah kerangka kerja ringan yang memudahkan untuk menentukan ruang pencarian dinamis untuk penyetelan hiperparameter dan pemilihan model. Optuna mencakup beberapa pengoptimalan terbaru dan algoritma pembelajaran mesin.

Optuna dapat dengan mudah diparalelkan dengan Joblib untuk menskalakan beban kerja, dan terintegrasi dengan MLflow untuk melacak hiperparameter dan metrik di seluruh uji coba.

Untuk mulai menggunakan Optuna, lihat Penyetelan hyperparameter dengan Optuna.

Ray Tune

Databricks Runtime ML mencakup Ray, kerangka kerja sumber terbuka yang digunakan untuk pemrosesan komputasi paralel. Ray Tune adalah pustaka penyetelan hyperparameter yang dilengkapi dengan Ray dan menggunakan Ray sebagai backend untuk komputasi terdistribusi.

Untuk detail tentang cara menjalankan Ray di Databricks, lihat Apa itu Ray di Azure Databricks?. Untuk contoh Ray Tune, lihat dokumentasi Ray Tune.

Hyperopt

Catatan

Hyperopt versi sumber terbuka tidak lagi dipertahankan .

Hyperopt tidak termasuk dalam Databricks Runtime untuk Pembelajaran Mesin setelah 16.4 LTS ML. Azure Databricks merekomendasikan penggunaan Optuna untuk pengoptimalan simpul tunggal atau RayTune untuk pengalaman serupa dengan fungsionalitas penyetelan hiperparameter terdistribusi Hyperopt yang tidak digunakan lagi. Pelajari selengkapnya tentang menggunakan RayTune di Azure Databricks.

Hyperopt adalah pustaka Python yang digunakan untuk penyetelan hiperparameter terdistribusi dan pemilihan model. Hyperopt bekerja dengan algoritma ML terdistribusi seperti Apache Spark MLlib dan Horovod, serta dengan model ML mesin tunggal seperti scikit-learn dan TensorFlow.

Untuk mulai menggunakan Hyperopt, lihat Menggunakan algoritma pelatihan terdistribusi dengan Hyperopt.

Pelacakan MLflow otomatis MLlib

Catatan

Pelacakan MLflow otomatis MLlib tidak digunakan lagi dan dinonaktifkan secara default pada kluster yang menjalankan Databricks Runtime 10.4 LTS ML ke atas.

Sebagai gantinya, gunakan MLflow PySpark ML autologging dengan memanggil mlflow.pyspark.ml.autolog(), yang diaktifkan secara default dengan Databricks Autologging.

Dengan pelacakan MLflow otomatis MLlib, saat Anda menjalankan kode penyetelan yang menggunakan CrossValidator atau TrainValidationSplit, hyperparameter dan metrik evaluasi secara otomatis dicatat di MLflow.