Melatih model regresi dengan AUTOML Python API
Artikel ini menunjukkan cara melatih model dengan AutoML menggunakan AutoML Python API. Lihat Referensi API Python AutoML untuk detail selengkapnya.
API menyediakan fungsi untuk memulai klasifikasi, regresi, dan prakiraan eksekusi AutoML. Setiap panggilan fungsi melatih sekumpulan model dan menghasilkan buku catatan percobaan untuk setiap model.
Lihat Persyaratan untuk eksperimen AutoML.
Menyiapkan eksperimen menggunakan API AutoML
Langkah-langkah berikut umumnya menjelaskan cara menyiapkan eksperimen AutoML menggunakan API:
Buat notebook dan lampirkan ke kluster yang menjalankan Databricks Runtime ML.
Identifikasi tabel mana yang ingin Anda gunakan dari sumber data yang ada atau mengunggah file data ke DBFS dan membuat tabel.
Untuk memulai eksekusi AutoML, gunakan fungsi
automl.regress()
,automl.classify()
, atauautoml.forecast()
dan teruskan tabel, bersama dengan parameter pelatihan lainnya. Untuk melihat semua fungsi dan parameter, lihat referensi AutoML Python API.Catatan
Fungsi
automl.forecast()
ini hanya tersedia untuk prakiraan pada komputasi klasik.Contohnya:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
Saat eksekusi AutoML dimulai, URL eksperimen MLflow akan muncul di konsol. Gunakan URL ini untuk memantau kemajuan eksekusi. Refresh eksperimen MLflow untuk melihat uji coba saat selesai.
Setelah eksekusi automl selesai:
- Gunakan tautan dalam ringkasan output untuk menavigasi ke eksperimen MLflow atau notebook yang menghasilkan hasil terbaik.
- Gunakan tautan ke notebook eksplorasi data untuk mendapatkan wawasan tentang data yang diteruskan ke AutoML. Anda juga dapat melampirkan buku catatan ini ke kluster yang sama dan menjalankannya kembali untuk mereprodurasi hasil atau melakukan analisis data tambahan.
- Gunakan objek ringkasan yang dikembalikan dari panggilan AutoML untuk menjelajahi detail lebih lanjut tentang uji coba atau untuk memuat model yang dilatih oleh uji coba tertentu. Pelajari selengkapnya tentang objek AutoMLSummary.
- Kloning notebook apa pun yang dihasilkan dari uji coba dan jalankan kembali dengan melampirkannya ke kluster yang sama untuk mereproduksi hasilnya. Anda juga dapat melakukan pengeditan yang diperlukan, menjalankannya kembali untuk melatih model tambahan dan mencatatnya ke eksperimen yang sama.
Mengimpor buku catatan
Untuk mengimpor buku catatan yang disimpan sebagai artefak MLflow, gunakan databricks.automl.import_notebook
API Python. Untuk informasi selengkapnya, lihat Mengimpor buku catatan
Mendaftarkan dan menyebarkan model
Anda dapat mendaftarkan dan menyebarkan model yang dilatih dengan AutoML seperti model terdaftar lainnya di dalam registri model MLflow; lihat Log, muat, dan daftarkan model MLflow.
Tidak ada modul bernama pandas.core.indexes.numeric
Saat melayani model yang dibangun menggunakan AutoML dengan Model Serving, Anda mungkin mendapatkan kesalahan: No module named pandas.core.indexes.numeric
.
Hal ini disebabkan oleh versi yang tidak kompatibel pandas
antara AutoML dan model yang melayani lingkungan titik akhir. Untuk mengatasi masalah ini:
-
Unduh skrip add-pandas-dependency.py.
Skrip mengedit
requirements.txt
danconda.yaml
untuk model yang dicatat untuk menyertakan versi dependensi yang sesuaipandas
:pandas==1.5.3
. - Ubah skrip untuk menyertakan
run_id
jalur MLflow di mana model Anda dicatat. - Daftarkan ulang model ke registri model MLflow.
- Coba sajikan versi baru model MLflow.
Contoh buku catatan
Buku catatan berikut ini memperlihatkan cara melakukan regresi dengan AutoML.
Contoh notebook regresi AutoML
Ambil buku catatan
Langkah berikutnya
Referensi API Python AutoML.