Melatih model ML dengan API Python Mosaic AutoML
Artikel ini menunjukkan cara melatih model dengan Mosaic AutoML menggunakan AutoML Python API. Lihat Referensi API Python Mosaic AutoML untuk detail selengkapnya.
API menyediakan fungsi untuk memulai klasifikasi, regresi, dan prakiraan eksekusi AutoML. Setiap panggilan fungsi melatih satu set model dan menghasilkan notebook percobaan untuk setiap model.
Lihat Persyaratan untuk eksperimen AutoML.
Menyiapkan eksperimen menggunakan API AutoML
Langkah-langkah berikut umumnya menjelaskan cara menyiapkan eksperimen AutoML menggunakan API:
Buat notebook dan lampirkan ke kluster yang menjalankan Databricks Runtime ML.
Identifikasi tabel mana yang ingin Anda gunakan dari sumber data yang sudah ada atau unggah file data ke DBFS dan buat tabel.
Untuk memulai eksekusi AutoML, gunakan
automl.regress()
fungsi atauautoml.classify()
dan teruskan tabel, bersama dengan parameter pelatihan lainnya. Untuk melihat semua fungsi dan parameter, lihat Referensi API Python Mosaic AutoML.Contohnya:
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
Saat eksekusi AutoML dimulai, URL eksperimen MLflow akan muncul di konsol. Gunakan URL ini untuk memantau kemajuan eksekusi. Refresh eksperimen MLflow untuk melihat uji coba saat selesai.
Setelah eksekusi automl selesai:
- Gunakan tautan dalam ringkasan output untuk menavigasi ke eksperimen MLflow atau notebook yang menghasilkan hasil terbaik.
- Gunakan tautan ke notebook eksplorasi data untuk mendapatkan wawasan tentang data yang diteruskan ke AutoML. Anda juga dapat melampirkan buku catatan ini ke kluster yang sama dan menjalankannya kembali untuk mereprodurasi hasil atau melakukan analisis data tambahan.
- Gunakan objek ringkasan yang dikembalikan dari panggilan AutoML untuk menjelajahi detail lebih lanjut tentang uji coba atau untuk memuat model yang dilatih oleh uji coba tertentu. Pelajari selengkapnya tentang objek AutoMLSummary.
- Kloning notebook apa pun yang dihasilkan dari uji coba dan jalankan kembali dengan melampirkannya ke kluster yang sama untuk mereproduksi hasilnya. Anda juga dapat melakukan pengeditan yang diperlukan, menjalankannya kembali untuk melatih model tambahan dan mencatatnya ke eksperimen yang sama.
Mengimpor buku catatan
Untuk mengimpor buku catatan yang disimpan sebagai artefak MLflow, gunakan databricks.automl.import_notebook
API Python. Untuk informasi selengkapnya, lihat Mengimpor buku catatan
Mendaftarkan dan menyebarkan model
Anda dapat mendaftar dan menyebarkan model terlatih AutoML seperti model terdaftar apa pun di registri model MLflow; lihat Mencatat, memuat, mendaftarkan, dan menyebarkan model MLflow.
Tidak ada modul bernama pandas.core.indexes.numeric
Saat melayani model yang dibangun menggunakan AutoML dengan Model Serving, Anda mungkin mendapatkan kesalahan: No module named 'pandas.core.indexes.numeric
.
Hal ini disebabkan oleh versi yang tidak kompatibel pandas
antara AutoML dan model yang melayani lingkungan titik akhir. Anda dapat mengatasi kesalahan ini dengan menjalankan skrip add-pandas-dependency.py. Skrip mengedit requirements.txt
dan conda.yaml
untuk model yang dicatat untuk menyertakan versi dependensi yang sesuai pandas
: pandas==1.5.3
.
- Ubah skrip untuk menyertakan
run_id
eksekusi MLflow tempat model Anda dicatat. - Mendaftarkan ulang model ke registri model MLflow.
- Coba sajikan versi baru model MLflow.
Contoh buku catatan
Tinjau notebook ini untuk memulai dengan AutoML.
Buku catatan berikut ini memperlihatkan cara melakukan klasifikasi dengan AutoML.
Contoh notebook klasifikasi AutoML
Buku catatan berikut ini memperlihatkan cara melakukan regresi dengan AutoML.
Contoh notebook regresi AutoML
Buku catatan berikut ini memperlihatkan cara melakukan prakiraan dengan AutoML.
Contoh notebook prakiraan AutoML
Langkah berikutnya
Referensi API Python Mosaic AutoML.