Bagikan melalui


Melatih model ML dengan UI Mosaic AutoML

Artikel ini menunjukkan cara melatih model pembelajaran mesin menggunakan AutoML dan Antarmuka Pengguna Databricks Mosaic AI. UI AutoML memanah Anda melalui pelatihan model klasifikasi, regresi, atau prakiraan pada himpunan data.

Lihat Persyaratan untuk eksperimen AutoML.

Buka UI AutoML

Untuk mengakses UI AutoML:

  1. Di bar samping, pilih Eksperimen AutoML Baru>.

    Anda juga dapat membuat eksperimen AutoML baru dari halaman Eksperimen.

    Halaman konfigurasikan eksperimen AutoML ditampilkan. Pada halaman ini, Anda mengonfigurasi proses AutoML, menentukan himpunan data, jenis masalah, target atau kolom label untuk diprediksi, metrik yang digunakan untuk mengevaluasi dan menilai eksekusi eksperimen, dan menghentikan kondisi.

Menyiapkan masalah klasifikasi atau regresi

Anda dapat menyiapkan masalah klasifikasi atau regresi menggunakan UI AutoML dengan langkah-langkah berikut:

  1. Di bidang Komputasi, pilih kluster yang menjalankan Databricks Runtime ML.

  2. Dari menu turun bawah tipe masalah ML, pilih Regresi atau Klasifikasi. Jika Anda mencoba memprediksi nilai numerik kontinu untuk setiap pengamatan, seperti pendapatan tahunan, pilih regresi. Jika Anda mencoba untuk menetapkan setiap pengamatan ke salah satu dari satu set diskrit kelas, seperti risiko kredit yang baik atau risiko kredit macet, pilih klasifikasi.

  3. Di bawah Himpunan Data, pilih Telusuri.

  4. Navigasi ke tabel yang ingin Anda gunakan dan klik Pilih. Skema tabel muncul.

    Catatan

    Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik.

  5. Klik di bidang Target prediksi. Drop-down muncul dengan mencantumkan kolom yang ditampilkan dalam skema. Pilih kolom yang Anda inginkan untuk diprediksi oleh model.

  6. Bidang Nama eksperimen menunjukkan nama default. Untuk mengubahnya, ketik nama baru di bidang.

Anda juga dapat:

Menyiapkan masalah prakiraan

Anda dapat menyiapkan masalah prakiraan menggunakan UI AutoML dengan langkah-langkah berikut:

  1. Di bidang Komputasi, pilih kluster yang menjalankan Runtime Databricks 10.0 ML atau lebih tinggi.

  2. Dari menu turun bawah tipe masalah ML, pilih Prakiraan.

  3. Di bawah Himpunan Data, klik Telusuri. Navigasi ke tabel yang ingin Anda gunakan dan klik Pilih. Skema tabel muncul.

  4. Klik di bidang Target prediksi. Menu dropdown muncul, mencantumkan kolom yang diperlihatkan dalam skema. Pilih kolom yang Anda inginkan untuk diprediksi oleh model.

  5. Klik di bidang Kolom waktu. Drop-down muncul menunjukkan kolom himpunan data yang bersifat tipe timestamp atau date. Pilih kolom yang berisi periode waktu untuk deret waktu.

  6. Untuk prakiraan multi-seri, pilih kolom yang mengidentifikasi deret waktu individual dari drop-down pengidentifikasi deret waktu. AutoML mengelompokkan data berdasarkan kolom ini sebagai deret waktu yang berbeda dan melatih model untuk setiap seri secara independen. Jika Anda membiarkan bidang ini kosong, AutoML mengasumsikan bahwa himpunan data berisi satu deret waktu.

  7. Di bidang Horizon dan frekuensi Forecast, tentukan jumlah periode waktu ke masa depan di mana AutoML harus menghitung nilai yang diperkirakan. Di kotak kiri, masukkan bilangan bulat periode untuk memprakirakan. Di kotak kanan, pilih unit.

    Catatan

    Untuk menggunakan ARIMA Otomatis, rangkaian waktu harus memiliki frekuensi reguler di mana interval antara dua titik harus sama sepanjang rangkaian waktu. Frekuensi harus cocok dengan unit frekuensi yang ditentukan dalam panggilan API atau di UI AutoML. AutoML menangani langkah-langkah waktu yang hilang dengan mengisi nilai-nilai tersebut dengan nilai sebelumnya.

  8. Di Databricks Runtime 11.3 LTS ML ke atas, Anda dapat menyimpan hasil prediksi. Untuk melakukannya, tentukan database di bidang Database Output. Klik Telusuri dan pilih database dari dialog. AutoML menulis hasil prediksi ke tabel dalam database ini.

  9. Bidang Nama eksperimen menunjukkan nama default. Untuk mengubahnya, ketik nama baru di bidang.

Anda juga dapat:

Menggunakan tabel fitur yang ada dari Penyimpanan Fitur Databricks

Di Databricks Runtime 11.3 LTS ML ke atas, Anda dapat menggunakan tabel fitur di Penyimpanan Fitur Databricks untuk memperluas himpunan data pelatihan input untuk masalah klasifikasi dan regresi Anda.

Di Databricks Runtime 12.2 LTS ML ke atas, Anda dapat menggunakan tabel fitur di Penyimpanan Fitur Databricks untuk memperluas himpunan data pelatihan input untuk semua masalah AutoML Anda: klasifikasi, regresi, dan prakiraan.

Untuk membuat tabel fitur, lihat Membuat tabel fitur di Unity Catalog atau Membuat tabel fitur di Penyimpanan Fitur Databricks.

Setelah mengonfigurasi eksperimen AutoML, Anda dapat memilih tabel fitur menggunakan langkah-langkah berikut:

  1. Klik Gabungkan fitur (opsional).

    Pilih tombol Gabungkan fitur

  2. Pada halaman Gabung Fitur Tambahan, pilih tabel fitur di bidang Tabel Fitur.

  3. Untuk setiap kunci utama tabel Fitur, pilih kunci pencarian yang sesuai. Kunci pencarian harus berupa kolom dalam himpunan data pelatihan yang Anda berikan untuk eksperimen AutoML Anda.

  4. Untuk tabel fitur rangkaian waktu, pilih kunci pencarian tanda waktu yang sesuai. Demikian pula, kunci pencarian tanda waktu harus berupa kolom dalam himpunan data pelatihan yang Anda berikan untuk eksperimen AutoML Anda.

    Pilih kunci primer dan tabel pencarian

  5. Untuk menambahkan tabel fitur lainnya, klik Tambahkan Tabel lain dan ulangi langkah-langkah di atas.

Konfigurasi tingkat lanjut

Buka bagian Konfigurasi Lanjutan (opsional) untuk mengakses parameter ini.

  • Metrik evaluasi adalah metrik utama yang digunakan untuk mencetak eksekusi alur.
  • Dalam Databricks Runtime 10.4 LTS ML ke atas, Anda dapat mengecualikan kerangka kerja pelatihan dari pertimbangan. Secara default, AutoML melatih model menggunakan kerangka kerja yang tercantum di bawah algoritma AutoML.
  • Anda dapat mengedit kondisi berhenti. Kondisi penghentian default adalah:
    • Untuk perkiraan eksperimen, berhenti setelah 120 menit.
    • Dalam Databricks Runtime 10.4 LTS ML ke bawah, untuk eksperimen klasifikasi dan regresi, hentikan setelah 60 menit atau setelah menyelesaikan 200 uji coba, mana pun yang terjadi terlebih dahulu. Untuk Databricks Runtime 11.0 ML ke atas, jumlah uji coba tidak akan digunakan sebagai syarat untuk berhenti.
    • Dalam Databricks Runtime 10.4 LTS ML ke atas, untuk eksperimen klasifikasi dan regresi, AutoML menggabungkan penghentian awal; ini menghentikan pelatihan dan penyetelan model jika metrik validasi tidak lagi membaik.
  • Di Databricks Runtime 10.4 LTS ML ke atas, Anda dapat memilih kolom waktu untuk membagi data untuk pelatihan, validasi, dan pengujian dalam urutan kronologis (hanya berlaku untuk klasifikasi dan regresi).
  • Databricks merekomendasikan untuk tidak mengisi bidang Direktori data. Melakukannya memicu perilaku default menyimpan himpunan data dengan aman sebagai artefak MLflow. Jalur DBFS dapat ditentukan, tetapi dalam hal ini, himpunan data tidak mewarisi izin akses eksperimen AutoML.

Menjalankan eksperimen dan memeriksa hasilnya

Untuk memulai eksperimen AutoML, klik Mulai AutoML. Eksperimen mulai berjalan, dan halaman pelatihan AutoML muncul. Untuk merefresh tabel eksekusi, klik Tombol refresh.

Dari halaman ini, Anda dapat:

  • Hentikan eksperimen kapan saja.
  • Buka notebook eksplorasi data.
  • Monitor berjalan.
  • Navigasikan ke halaman jalankan untuk menjalankan apa pun.

Dengan Databricks Runtime 10.1 ML dan yang lebih baru, AutoML menampilkan peringatan untuk potensi masalah dengan himpunan data, seperti jenis kolom yang tidak didukung atau kolom kardinalitas tinggi.

Catatan

Databricks melakukan yang terbaik untuk menunjukkan potensi kesalahan atau masalah. Namun, ini mungkin tidak komprehensif dan mungkin tidak menangkap masalah atau kesalahan yang mungkin Anda cari.

Untuk melihat peringatan untuk himpunan data, klik tab Peringatan di halaman pelatihan atau halaman eksperimen setelah eksperimen selesai.

Peringatan AutoML

Ketika percobaan selesai, Anda dapat:

  • Daftar dan sebarkan salah satu model dengan MLflow.
  • Pilih Tampilkan buku catatan untuk model terbaik untuk meninjau dan mengedit buku catatan yang membuat model terbaik.
  • Pilih Tampilkan buku catatan eksplorasi data untuk membuka buku catatan eksplorasi data.
  • Cari, filter, dan urutkan eksekusi alur di tabel berjalan.
  • Lihat detail untuk eksekusi apa pun:
    • Buku catatan yang dihasilkan yang berisi kode sumber untuk uji coba dapat ditemukan dengan mengklik eksekusi MLflow. Buku catatan disimpan di bagian Artefak dari halaman eksekusi. Anda dapat mengunduh buku catatan ini dan mengimpornya ke ruang kerja, jika mengunduh artefak diaktifkan oleh administrator ruang kerja Anda.
    • Untuk menampilkan hasil eksekusi, klik di kolom Model atau kolom Waktu Mulai. Halaman eksekusi muncul, memperlihatkan informasi tentang eksekusi uji coba (seperti parameter, metrik, dan tag) dan artefak yang dibuat oleh eksekusi, termasuk model. Halaman ini juga menyertakan cuplikan kode yang dapat Anda gunakan untuk membuat prediksi dengan model.

Untuk kembali ke eksperimen AutoML ini nanti, temukan di tabel di halaman Eksperimen. Hasil setiap eksperimen AutoML, termasuk notebook eksplorasi dan pelatihan data, disimpan dalam databricks_automl folder di rumah folder pengguna yang menjalankan eksperimen.

Mendaftarkan dan menyebarkan model

Anda dapat mendaftarkan dan menyebarkan model Anda dengan UI AutoML:

  1. Pilih tautan di kolom Model untuk model yang akan didaftarkan. Ketika eksekusi selesai, baris atas adalah model terbaik (berdasarkan metrik utama).
  2. Pilih tombol daftarkan model untuk mendaftarkan model di Registri Model.
  3. Pilih Ikon Model Model di bar samping untuk menavigasi ke Registri Model.
  4. Pilih nama model Anda dalam tabel model.
  5. Dari halaman model terdaftar, Anda dapat melayani model dengan Model Serving.

Tidak ada modul bernama 'pandas.core.indexes.numeric

Saat melayani model yang dibangun menggunakan AutoML dengan Model Serving, Anda mungkin mendapatkan kesalahan: No module named 'pandas.core.indexes.numeric.

Hal ini disebabkan oleh versi yang tidak kompatibel pandas antara AutoML dan model yang melayani lingkungan titik akhir. Anda dapat mengatasi kesalahan ini dengan menjalankan skrip add-pandas-dependency.py. Skrip mengedit requirements.txt dan conda.yaml untuk model yang dicatat untuk menyertakan versi dependensi yang sesuai pandas : pandas==1.5.3

  1. Ubah skrip untuk menyertakan run_id eksekusi MLflow tempat model Anda dicatat.
  2. Mendaftarkan ulang model ke registri model MLflow.
  3. Coba sajikan versi baru model MLflow.