Bagikan melalui


Melatih model ML dengan API Python Mosaic AutoML

Artikel ini menunjukkan cara melatih model dengan Mosaic AutoML menggunakan AutoML Python API. Lihat Referensi API Python Mosaic AutoML untuk detail selengkapnya.

API menyediakan fungsi untuk memulai klasifikasi, regresi, dan prakiraan eksekusi AutoML. Setiap panggilan fungsi melatih satu set model dan menghasilkan notebook percobaan untuk setiap model.

Lihat Persyaratan untuk eksperimen AutoML.

Menyiapkan eksperimen menggunakan API AutoML

Langkah-langkah berikut umumnya menjelaskan cara menyiapkan eksperimen AutoML menggunakan API:

  1. Buat notebook dan lampirkan ke kluster yang menjalankan Databricks Runtime ML.

  2. Identifikasi tabel mana yang ingin Anda gunakan dari sumber data yang sudah ada atau unggah file data ke DBFS dan buat tabel.

  3. Untuk memulai eksekusi AutoML, gunakan automl.regress() fungsi atau automl.classify() dan teruskan tabel, bersama dengan parameter pelatihan lainnya. Untuk melihat semua fungsi dan parameter, lihat Referensi API Python Mosaic AutoML.

    Contohnya:

    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
  4. Saat eksekusi AutoML dimulai, URL eksperimen MLflow akan muncul di konsol. Gunakan URL ini untuk memantau kemajuan eksekusi. Refresh eksperimen MLflow untuk melihat uji coba saat selesai.

  5. Setelah eksekusi automl selesai:

  • Gunakan tautan dalam ringkasan output untuk menavigasi ke eksperimen MLflow atau notebook yang menghasilkan hasil terbaik.
  • Gunakan tautan ke notebook eksplorasi data untuk mendapatkan wawasan tentang data yang diteruskan ke AutoML. Anda juga dapat melampirkan buku catatan ini ke kluster yang sama dan menjalankannya kembali untuk mereprodurasi hasil atau melakukan analisis data tambahan.
  • Gunakan objek ringkasan yang dikembalikan dari panggilan AutoML untuk menjelajahi detail lebih lanjut tentang uji coba atau untuk memuat model yang dilatih oleh uji coba tertentu. Pelajari selengkapnya tentang objek AutoMLSummary.
  • Kloning notebook apa pun yang dihasilkan dari uji coba dan jalankan kembali dengan melampirkannya ke kluster yang sama untuk mereproduksi hasilnya. Anda juga dapat melakukan pengeditan yang diperlukan, menjalankannya kembali untuk melatih model tambahan dan mencatatnya ke eksperimen yang sama.

Mengimpor buku catatan

Untuk mengimpor buku catatan yang disimpan sebagai artefak MLflow, gunakan databricks.automl.import_notebook API Python. Untuk informasi selengkapnya, lihat Mengimpor buku catatan

Mendaftarkan dan menyebarkan model

Anda dapat mendaftar dan menyebarkan model terlatih AutoML seperti model terdaftar apa pun di registri model MLflow; lihat Mencatat, memuat, mendaftarkan, dan menyebarkan model MLflow.

Tidak ada modul bernama pandas.core.indexes.numeric

Saat melayani model yang dibangun menggunakan AutoML dengan Model Serving, Anda mungkin mendapatkan kesalahan: No module named 'pandas.core.indexes.numeric.

Hal ini disebabkan oleh versi yang tidak kompatibel pandas antara AutoML dan model yang melayani lingkungan titik akhir. Anda dapat mengatasi kesalahan ini dengan menjalankan skrip add-pandas-dependency.py. Skrip mengedit requirements.txt dan conda.yaml untuk model yang dicatat untuk menyertakan versi dependensi yang sesuai pandas : pandas==1.5.3.

  1. Ubah skrip untuk menyertakan run_id eksekusi MLflow tempat model Anda dicatat.
  2. Mendaftarkan ulang model ke registri model MLflow.
  3. Coba sajikan versi baru model MLflow.

Contoh buku catatan

Tinjau notebook ini untuk memulai dengan AutoML.

Buku catatan berikut ini memperlihatkan cara melakukan klasifikasi dengan AutoML.

Contoh notebook klasifikasi AutoML

Dapatkan buku catatan

Buku catatan berikut ini memperlihatkan cara melakukan regresi dengan AutoML.

Contoh notebook regresi AutoML

Dapatkan buku catatan

Buku catatan berikut ini memperlihatkan cara melakukan prakiraan dengan AutoML.

Contoh notebook prakiraan AutoML

Dapatkan buku catatan

Langkah berikutnya

Referensi API Python Mosaic AutoML.