Penyapuan dan pemilihan model untuk prakiraan di AutoML

Artikel ini berfokus pada cara AutoML mencari dan memilih model prakiraan. Silakan lihat artikel gambaran umum metode untuk informasi lebih umum tentang metodologi prakiraan di AutoML. Instruksi dan contoh untuk model prakiraan pelatihan di AutoML dapat ditemukan di artikel prakiraan AutoML untuk rangkaian waktu kami.

Penyapuan model

Tugas pusat untuk AutoML adalah melatih dan mengevaluasi beberapa model dan memilih yang terbaik sehubungan dengan metrik utama yang diberikan. Kata "model" di sini mengacu pada kelas model - seperti ARIMA atau Hutan Acak - dan pengaturan hyper-parameter tertentu yang membedakan model dalam kelas. Misalnya, ARIMA mengacu pada kelas model yang berbagi templat matematika dan serangkaian asumsi statistik. Pelatihan, atau penyesuaian, model ARIMA memerlukan daftar bilangan bulat positif yang menentukan bentuk matematika model yang tepat; ini adalah parameter hiper. ARIMA(1, 0, 1) dan ARIMA(2, 1, 2) memiliki kelas yang sama, tetapi parameter hiper yang berbeda dan, sehingga, dapat secara terpisah sesuai dengan data pelatihan dan dievaluasi satu sama lain. Pencarian AutoML, atau sapuan, di atas kelas model yang berbeda dan dalam kelas dengan memvariasikan hyper-parameter.

Tabel berikut menunjukkan berbagai metode sapuan hyper-parameter yang digunakan AutoML untuk kelas model yang berbeda:

Grup kelas model Jenis model Metode pembersihan hyper-parameter
Naif, Naif Musiman, Rata-rata, Rata-Rata Musiman Deret waktu Tidak ada pembersihan dalam kelas karena kesederhanaan model
Smoothing Eksponensial, ARIMA(X) Deret waktu Pencarian kisi untuk pembersihan dalam kelas
Prophet Regresi Tidak ada sapuan di dalam kelas
SGD Linier, LARS LASSO, Jaring Elastis, K Tetangga Terdekat, Pohon Keputusan, Hutan Acak, Pohon yang Sangat Acak, Pohon Yang Didorong Gradien, LightGBM, XGBoost Regresi Layanan rekomendasi model AutoML secara dinamis mengeksplorasi ruang hyper-parameter
PrakiraanTCN Regresi Daftar statis model diikuti oleh pencarian acak atas ukuran jaringan, rasio pengantaran, dan tingkat pembelajaran.

Untuk deskripsi berbagai jenis model, lihat bagian model prakiraan dari artikel gambaran umum metode.

Jumlah pembersihan yang dilakukan AutoML tergantung pada konfigurasi pekerjaan prakiraan. Anda dapat menentukan kriteria penghentian sebagai batas waktu atau batas jumlah uji coba, atau secara setara dengan jumlah model. Logika penghentian dini dapat digunakan dalam kedua kasus untuk berhenti menyapu jika metrik utama tidak membaik.

Pemilihan model

Pencarian dan pemilihan model prakiraan AutoML berlanjut dalam tiga fase berikut:

  1. Sapu model rangkaian waktu dan pilih model terbaik dari setiap kelas menggunakan metode kemungkinan yang dipidana.
  2. Sapu model regresi dan beri peringkat, bersama dengan model rangkaian waktu terbaik dari fase 1, sesuai dengan nilai metrik utamanya dari set validasi.
  3. Buat model ansambel dari model peringkat teratas, hitung metrik validasinya, dan beri peringkat dengan model lain.

Model dengan nilai metrik peringkat teratas pada akhir fase 3 ditunjuk sebagai model terbaik.

Penting

Fase akhir pemilihan model AutoML selalu menghitung metrik pada data di luar sampel . Artinya, data yang tidak digunakan untuk menyesuaikan model. Ini membantu melindungi dari over-fitting.

AutoML memiliki dua konfigurasi validasi - validasi silang dan data validasi eksplisit. Dalam kasus validasi silang, AutoML menggunakan konfigurasi input untuk membuat pemisahan data menjadi lipatan pelatihan dan validasi. Urutan waktu harus dipertahankan dalam pemisahan ini, sehingga AutoML menggunakan apa yang disebut Validasi Silang Asal Bergulir yang membagi seri menjadi data pelatihan dan validasi menggunakan titik waktu asal. Menggeser asal-usul tepat waktu menghasilkan lipatan validasi silang. Setiap lipatan validasi berisi cakrawala pengamatan berikutnya segera mengikuti posisi asal untuk lipatan yang diberikan. Strategi ini mempertahankan integritas data rangkaian waktu dan mengurangi risiko kebocoran informasi.

Diagram memperlihatkan lipatan validasi silang yang memisahkan set pelatihan dan validasi berdasarkan ukuran langkah validasi silang.

AutoML mengikuti prosedur validasi silang yang biasa, melatih model terpisah pada setiap lipatan dan rata-rata metrik validasi dari semua lipatan.

Validasi silang untuk pekerjaan prakiraan dikonfigurasi dengan mengatur jumlah lipatan validasi silang dan, secara opsional, jumlah periode waktu antara dua lipatan validasi silang berturut-turut. Lihat panduan pengaturan validasi silang kustom untuk informasi selengkapnya dan contoh mengonfigurasi validasi silang untuk prakiraan.

Anda juga dapat membawa data validasi Anda sendiri. Pelajari selengkapnya di artikel mengonfigurasi pemisahan data dan validasi silang di AutoML (SDK v1).

Langkah berikutnya