Persiapan data untuk prakiraan

Artikel ini menjelaskan cara AutoML menyiapkan data untuk pelatihan prakiraan dan menjelaskan pengaturan data yang dapat dikonfigurasi. Anda dapat menyesuaikan opsi ini selama penyiapan eksperimen di UI AutoML.

Untuk mengonfigurasi pengaturan ini menggunakan API AutoML), lihat referensi API Python AutoML.

Jenis fitur data yang didukung

Hanya jenis fitur yang tercantum di bawah ini yang didukung. Misalnya, gambar tidak didukung.

Jenis fitur berikut didukung:

  • Numerik (ByteType, ShortType, IntegerType, LongType, FloatType, dan DoubleType)
  • Boolean
  • String (teks kategoris atau bahasa Inggris)
  • Stempel waktu (TimestampType, DateType)
  • ArrayType[Numerik] (Databricks Runtime 10.4 LTS ML dan lebih tinggi)
  • DecimalType (Databricks Runtime 11.3 LTS ML ke atas)

Mengisi nilai yang hilang

Dalam Databricks Runtime 10.4 LTS ML ke atas, Anda dapat menentukan bagaimana nilai null diimplikasikan. Di antarmuka pengguna, pilih metode dari menu drop-down dalam kolom Impute dengan pada skema tabel. Di API, gunakan imputers parameter . Untuk informasi selengkapnya, lihat Referensi API Python AutoML.

Secara default, AutoML memilih metode imputasi berdasarkan jenis kolom dan konten.

Catatan

Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik.

Membagi data prakiraan menjadi kumpulan pelatihan, validasi, dan pengujian

AutoML membagi data Anda menjadi tiga pemisahan untuk pelatihan, validasi, dan pengujian.

Untuk tugas prakiraan, AutoML menggunakan validasi silang rangkaian waktu. Metode ini secara bertahap memperluas himpunan data pelatihan secara kronologis dan melakukan validasi pada titik waktu berikutnya. Validasi silang memberikan evaluasi performa model yang kuat selama segmen waktu yang berbeda. Ini memastikan bahwa model prakiraan diuji secara ketat terhadap data masa depan yang tidak terlihat, mempertahankan relevansi dan akurasi prediksi.

Jumlah lipatan validasi silang tergantung pada karakteristik tabel input seperti jumlah rangkaian waktu, keberadaan kovariate, dan panjang rangkaian waktu.

Agregat Rangkaian Waktu

Untuk memprakirakan masalah, ketika ada beberapa nilai untuk stempel waktu dalam deret waktu, AutoML menggunakan rata-rata nilai.

Untuk menggunakan jumlah sebagai gantinya , edit buku catatan kode sumber yang dihasilkan oleh eksekusi uji coba. Dalam data Agregat menurut... sel, ubah .agg(y=(target_col, "avg"))menjadi .agg(y=(target_col, "sum")), seperti yang ditunjukkan:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })