Bagikan melalui


Apa itu AutoML?

Databricks AutoML menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hyperparameter untuk Anda.

Berikan himpunan data Anda dan tentukan jenis masalah pembelajaran mesin, lalu AutoML melakukan hal berikut:

  1. Membersihkan dan menyiapkan data Anda.
  2. Mengatur pelatihan model terdistribusi dan penyetelan hiperparameter di beberapa algoritma.
  3. Menemukan model terbaik menggunakan algoritma evaluasi sumber terbuka dari scikit-learn, xgboost, LightGBM, Prophet, dan ARIMA.
  4. Menyajikan hasilnya. AutoML juga menghasilkan buku catatan kode sumber untuk setiap percobaan, memungkinkan Anda meninjau, mereproduksi, dan memodifikasi kode sesuai kebutuhan.

Mulai menggunakan eksperimen AutoML melalui UI kode rendah atau API Python.

Persyaratan

  • Databricks Runtime 9.1 ML atau lebih tinggi. Untuk versi ketersediaan umum (GA), Databricks Runtime 10.4 LTS ML atau lebih tinggi.
    • Untuk peramalan deret waktu, Runtime Databricks 10.0 ML atau lebih tinggi.
    • Dengan Databricks Runtime 9.1 LTS ML ke atas, AutoML tergantung pada databricks-automl-runtime paket, yang berisi komponen yang berguna di luar AutoML dan juga membantu menyederhanakan notebook yang dihasilkan oleh pelatihan AutoML. databricks-automl-runtime Tersedia di PyPI.
  • Tidak ada pustaka tambahan selain yang telah diinstal sebelumnya di Databricks Runtime untuk Pembelajaran Mesin yang harus diinstal pada kluster.
    • Setiap modifikasi (penghapusan, peningkatan, atau penurunan) ke versi pustaka yang ada menghasilkan kegagalan eksekusi karena ketidaksesuaian.
  • AutoML tidak kompatibel dengan kluster mode akses bersama.
  • Untuk menggunakan Unity Catalog dengan AutoML, mode akses kluster harus Pengguna Tunggal, dan Anda harus menjadi pengguna tunggal kluster yang ditunjuk.
  • Untuk mengakses file di ruang kerja, Anda harus membuka port jaringan 1017 dan 1021 untuk eksperimen AutoML. Untuk membuka port ini atau mengonfirmasi bahwa port terbuka, tinjau konfigurasi firewall VPN cloud dan aturan grup keamanan Anda atau hubungi administrator cloud lokal Anda. Untuk informasi tambahan tentang konfigurasi dan penyebaran ruang kerja, lihat Membuat ruang kerja.

Algoritma AutoML

Databricks AutoML melatih dan mengevaluasi model berdasarkan algoritma dalam tabel berikut.

Catatan

Untuk model klasifikasi dan regresi, pohon keputusan, hutan acak, regresi logistik, dan regresi linier dengan algoritma penurunan gradien stochastic didasarkan pada scikit-learn.

Model klasifikasi Model regresi Model prakiraan
Pohon keputusan Pohon keputusan Prophet
Hutan acak Hutan acak Auto-ARIMA (Tersedia dalam Runtime Databricks 10.3 ML ke atas.)
Regresi Logistik Regresi linier dengan penurunan gradien stokastik
XGBoost XGBoost
LightGBM LightGBM

Pembuatan buku catatan percobaan

AutoML menghasilkan notebook kode sumber di balik uji coba sehingga Anda dapat meninjau, mereproduksi, dan memodifikasi kode sesuai kebutuhan.

Untuk memperkirakan eksperimen, notebook yang dihasilkan AutoML secara otomatis diimpor ke ruang kerja Anda untuk semua percobaan eksperimen Anda.

Untuk eksperimen klasifikasi dan regresi, notebook yang dihasilkan AutoML untuk eksplorasi data dan uji coba terbaik dalam eksperimen Anda secara otomatis diimpor ke ruang kerja Anda. Notebook yang dihasilkan untuk uji coba eksperimen lainnya disimpan sebagai artefak MLflow pada DBFS alih-alih diimpor secara otomatis ke ruang kerja Anda. Untuk semua uji coba selain uji coba terbaik, notebook_path dan notebook_url di TrialInfo Python API tidak diatur. Jika Anda perlu menggunakan notebook ini, Anda dapat mengimpornya secara manual ke ruang kerja Anda dengan antarmuka pengguna eksperimen AutoML atau databricks.automl.import_notebook API Python.

Jika Anda hanya menggunakan buku catatan eksplorasi data atau buku catatan percobaan terbaik yang dihasilkan oleh AutoML, kolom Sumber di antarmuka pengguna eksperimen AutoML berisi tautan ke buku catatan yang dihasilkan untuk uji coba terbaik.

Jika Anda menggunakan notebook lain yang dihasilkan di antarmuka pengguna eksperimen AutoML, ini tidak diimpor secara otomatis ke ruang kerja. Anda dapat menemukan buku catatan dengan mengklik setiap eksekusi MLflow. Buku catatan IPython disimpan di bagian Artefak dari halaman eksekusi. Anda dapat mengunduh buku catatan ini dan mengimpornya ke ruang kerja, jika mengunduh artefak diaktifkan oleh administrator ruang kerja Anda.

Nilai shapley (SHAP) untuk penjelasan model

Catatan

Untuk MLR 11.1 ke bawah, plot SHAP tidak dihasilkan jika himpunan data berisi datetime kolom.

Notebook yang dihasilkan oleh regresi AutoML dan eksekusi klasifikasi menyertakan kode untuk menghitung nilai Shapley. Nilai shapley didasarkan pada teori game dan memperkirakan pentingnya setiap fitur untuk prediksi model.

Notebook AutoML menghitung nilai Shapley menggunakan paket SHAP. Karena perhitungan ini sangat intensif memori, perhitungan tidak dilakukan secara default.

Untuk menghitung dan menampilkan nilai Shapley:

  1. Buka bagian Kepentingan fitur di buku catatan uji coba yang dihasilkan AutoML.
  2. Set shap_enabled = True.
  3. Jalankan kembali notebook.

Langkah berikutnya