Klasifikasi dengan AutoML

Gunakan AutoML untuk menemukan algoritma klasifikasi dan konfigurasi hyperparameter terbaik secara otomatis untuk memprediksi label atau kategori input tertentu.

Menyiapkan eksperimen klasifikasi dengan UI

Anda dapat menyiapkan masalah klasifikasi menggunakan UI AutoML dengan langkah-langkah berikut:

  1. Di bar samping, pilih eksperimen .

  2. Di kartu Klasifikasi, pilih Mulai pelatihan.

    Halaman konfigurasikan eksperimen AutoML ditampilkan. Pada halaman ini, Anda mengonfigurasi proses AutoML, menentukan himpunan data, jenis masalah, target, atau kolom label untuk memprediksi, metrik yang akan digunakan untuk mengevaluasi dan menilai eksperimen yang dijalankan, dan menghentikan kondisi.

  3. Di bidang Komputasi, pilih kluster yang menjalankan Databricks Runtime ML.

  4. Di bawah Himpunan Data, pilih Telusuri.

  5. Navigasi ke tabel yang ingin Anda gunakan dan klik Pilih. Skema tabel muncul.

    Catatan

    Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik.

  6. Klik di bidang Target prediksi. Menu tarik-turun muncul mencantumkan kolom yang diperlihatkan dalam skema. Pilih kolom yang Anda inginkan untuk diprediksi model.

  7. Bidang Nama eksperimen menunjukkan nama default. Untuk mengubahnya, ketik nama baru di bidang.

Anda juga dapat:

Konfigurasi tingkat lanjut

Buka bagian Konfigurasi Lanjutan (opsional) untuk mengakses parameter ini.

  • Metrik evaluasi adalah metrik utama yang digunakan untuk mencetak eksekusi alur.
  • Dalam Databricks Runtime 10.4 LTS ML ke atas, Anda dapat mengecualikan kerangka kerja pelatihan dari pertimbangan. Secara default, AutoML melatih model menggunakan kerangka kerja yang tercantum di bawah algoritma AutoML.
  • Anda dapat mengedit kondisi berhenti. Kondisi penghentian default adalah:
    • Untuk perkiraan eksperimen, berhenti setelah 120 menit.
    • Dalam Databricks Runtime 10.4 LTS ML ke bawah, untuk eksperimen klasifikasi dan regresi, hentikan setelah 60 menit atau setelah menyelesaikan 200 uji coba, mana pun yang terjadi terlebih dahulu. Untuk Databricks Runtime 11.0 ML ke atas, jumlah uji coba tidak akan digunakan sebagai syarat untuk berhenti.
    • Dalam Databricks Runtime 10.4 LTS ML ke atas, untuk eksperimen klasifikasi dan regresi, AutoML menggabungkan penghentian awal; ini menghentikan pelatihan dan penyetelan model jika metrik validasi tidak lagi membaik.
  • Dalam Databricks Runtime 10.4 LTS ML ke atas, Anda dapat memilih untuk membagi data untuk pelatihan, validasi, dan pengujian dalam urutan kronologis (hanya berlaku untuk klasifikasi dan regresi ).
  • Databricks merekomendasikan agar bidang Direktori data kosong. Tidak mengisi bidang ini memicu perilaku default menyimpan himpunan data dengan aman sebagai artefak MLflow. Jalur DBFS dapat ditentukan, tetapi dalam hal ini, himpunan data tidak mewarisi izin akses eksperimen AutoML.

Menjalankan eksperimen dan memeriksa hasilnya

Untuk memulai eksperimen AutoML, klik Mulai AutoML. Eksperimen mulai berjalan, dan halaman pelatihan AutoML muncul. Untuk merefresh tabel eksekusi, klik tombol Refresh .

Lihat kemajuan eksperimen

Dari halaman ini, Anda dapat:

  • Hentikan eksperimen kapan saja.
  • Buka notebook eksplorasi data.
  • Monitor berjalan.
  • Navigasikan ke halaman jalankan untuk menjalankan apa pun.

Dengan Databricks Runtime 10.1 ML ke atas, AutoML menampilkan peringatan untuk potensi masalah dengan himpunan data, seperti jenis kolom yang tidak didukung atau kolom kardinalitas tinggi.

Catatan

Databricks melakukan yang terbaik untuk menunjukkan potensi kesalahan atau masalah. Namun, ini mungkin tidak komprehensif dan mungkin tidak menangkap masalah atau kesalahan yang mungkin Anda cari.

Untuk melihat peringatan untuk himpunan data, klik tab Peringatan di halaman pelatihan atau halaman eksperimen setelah eksperimen selesai.

Peringatan AutoML

Melihat hasil

Ketika percobaan selesai, Anda dapat:

  • Daftar dan sebarkan salah satu model dengan MLflow.
  • Pilih Tampilkan buku catatan untuk model terbaik untuk meninjau dan mengedit buku catatan yang membuat model terbaik.
  • Pilih Tampilkan buku catatan eksplorasi data untuk membuka buku catatan eksplorasi data.
  • Cari, filter, dan urutkan eksekusi dalam tabel eksekusi.
  • Lihat detail untuk eksekusi apa pun:
    • Buku catatan yang dihasilkan yang berisi kode sumber untuk uji coba dapat ditemukan dengan mengklik eksekusi MLflow. Buku catatan disimpan di bagian Artefak dari halaman eksekusi. Anda dapat mengunduh buku catatan ini dan mengimpornya ke ruang kerja, jika mengunduh artefak diaktifkan oleh administrator ruang kerja Anda.
    • Untuk melihat hasil eksekusi, klik di kolom Model atau di kolom Waktu Mulai. Halaman eksekusi muncul, menampilkan informasi mengenai pelaksanaan uji coba, seperti parameter, metrik, dan tag, serta artefak yang dibuat, termasuk model. Halaman ini juga menyertakan cuplikan kode yang dapat Anda gunakan untuk membuat prediksi dengan model.

Untuk kembali ke eksperimen AutoML ini nanti, temukan di tabel di halaman eksperimen . Hasil setiap eksperimen AutoML, termasuk notebook eksplorasi dan pelatihan data, disimpan dalam databricks_automl folder di rumah folder pengguna yang menjalankan eksperimen.

Mendaftarkan dan menyebarkan model

Daftarkan dan sebarkan model Anda menggunakan UI AutoML. Saat eksekusi selesai, baris atas menampilkan model terbaik berdasarkan metrik utama.

  1. Pilih tautan di kolom Model untuk model yang ingin Anda daftarkan.
  2. Pilih tombol daftarkan model untuk mendaftarkannya ke Unity Catalog atau Model Registry.

    Catatan

    Databricks merekomendasikan Anda mendaftarkan model ke Unity Catalog untuk fitur terbaru.

  3. Setelah pendaftaran, Anda dapat menyebarkan model ke model kustom yang melayani titik akhir.

Tidak ada modul bernama 'pandas.core.indexes.numeric

Saat melayani model yang dibangun menggunakan AutoML dengan Model Serving, Anda mungkin mendapatkan kesalahan: No module named 'pandas.core.indexes.numeric.

Hal ini disebabkan oleh versi yang tidak kompatibel pandas antara AutoML dan model yang melayani lingkungan titik akhir. Anda dapat mengatasi kesalahan ini dengan menjalankan skrip add-pandas-dependency.py. Skrip mengedit requirements.txt dan conda.yaml untuk model yang dicatat untuk menyertakan versi dependensi yang sesuai pandas : pandas==1.5.3

  1. Ubah skrip untuk menyertakan run_id dari jalannya MLflow tempat model Anda direkam.
  2. Daftarkan ulang model ke Unity Catalog atau registri model.
  3. Coba sajikan versi baru model MLflow.

Langkah berikutnya