azureml.train.automl.automlconfig.AutoMLConfig class - Azure Machine Learning Python

task: str atau Tasks

Diperlukan

Jenis tugas yang akan dijalankan. Nilai dapat berupa 'klasifikasi', 'regresi', atau 'prakiraan' tergantung pada jenis masalah pembelajaran mesin otomatis yang harus dipecahkan.

path: str

Diperlukan

Jalur lengkap ke folder proyek Azure Machine Learning. Jika tidak ditentukan, defaultnya akan menggunakan direktori saat ini atau ".".

iterations: int

Diperlukan

Total jumlah kombinasi algoritma dan parameter yang berbeda yang akan diuji selama eksperimen pembelajaran mesin otomatis. Jika tidak ditentukan, defaultnya adalah 1000 perulangan.

primary_metric: str atau Metric

Diperlukan

Metrik yang akan dioptimalkan oleh Pembelajaran Mesin Otomatis untuk pemilihan model. Pembelajaran Mesin Otomatis mengumpulkan lebih banyak metrik daripada yang dapat dioptimalkan. Anda dapat menggunakan get_primary_metrics guna mendapatkan daftar metrik yang valid untuk tugas yang diberikan. Untuk informasi selengkapnya mengenai cara penghitungan metrik, lihat https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Jika tidak ditentukan, akurasi digunakan untuk tugas klasifikasi, rata-rata kuadrat yang dinormalisasi digunakan untuk tugas prakiraan dan regresi, akurasi digunakan untuk klasifikasi gambar dan klasifikasi gambar multi label, dan mean average precision (MAP) digunakan untuk deteksi objek gambar.

positive_label: Any

Diperlukan

Label kelas positif yang akan digunakan oleh Pembelajaran Mesin Otomatis untuk menghitung metrik biner. Metrik biner dihitung pada dua kondisi untuk tugas klasifikasi:

kolom label terdiri dari dua kelas yang menunjukkan tugas klasifikasi biner AutoML akan menggunakan kelas positif tertentu ketika positive_label diteruskan, jika tidak, AutoML akan memilih kelas positif berdasarkan nilai yang dikodekan label.
tugas klasifikasi multi kelas dengan positive_label ditentukan

Untuk informasi selengkapnya tentang klasifikasi, lihat metrik untuk skenario klasifikasi.

compute_target: AbstractComputeTarget

Diperlukan

Target komputasi Azure Machine Learning untuk eksekusi eksperimen Pembelajaran Mesin Otomatis. Lihat https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote untuk informasi selengkapnya tentang target komputasi.

spark_context: <xref:SparkContext>

Diperlukan

Konteks Spark. Hanya berlaku saat digunakan di dalam lingkungan Azure Databricks/Spark.

X: DataFrame atau ndarray atau Dataset atau TabularDataset

Diperlukan

Fitur pelatihan yang digunakan saat memasang alur selama eksperimen. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan label_column_name sebagai gantinya.

y: DataFrame atau ndarray atau Dataset atau TabularDataset

Diperlukan

Label pelatihan yang digunakan saat memasang alur selama eksperimen. Ini adalah nilai yang akan diprediksi oleh model Anda. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan label_column_name sebagai gantinya.

sample_weight: DataFrame atau ndarray atau TabularDataset

Diperlukan

Bobot yang diberikan ke setiap sampel pelatihan saat menjalankan pemasangan alur, setiap baris harus sesuai dengan baris dalam data X dan y.

Tentukan parameter ini ketika menentukan X. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan weight_column_name sebagai gantinya.

X_valid: DataFrame atau ndarray atau Dataset atau TabularDataset

Diperlukan

Fitur validasi yang digunakan saat memasang alur selama eksperimen.

Jika ditentukan, y_valid atau sample_weight_valid juga harus ditentukan. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan label_column_name sebagai gantinya.

y_valid: DataFrame atau ndarray atau Dataset atau TabularDataset

Diperlukan

Label validasi yang digunakan saat memasang alur selama eksperimen.

X_valid dan y_valid harus ditentukan bersamaan. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan label_column_name sebagai gantinya.

sample_weight_valid: DataFrame atau ndarray atau TabularDataset

Diperlukan

Bobot yang diberikan ke setiap sampel validasi saat menjalankan penilaian alur, setiap baris harus sesuai dengan baris dalam data X dan y.

Tentukan parameter ini ketika menentukan X_valid. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan weight_column_name sebagai gantinya.

cv_splits_indices: List[List[ndarray]]

Diperlukan

Indeks pemisahan data pelatihan untuk validasi silang. Setiap baris adalah lipatan silang yang terpisah dan dalam setiap lipatan silang, menyediakan 2 larik, yang pertama larik dengan indeks untuk sampel yang akan digunakan untuk data pelatihan dan yang kedua larik dengan indeks yang akan digunakan untuk data validasi. misalnya, [[t1, v1], [t2, v2], ...] dalam hal ini, t1 adalah indeks pelatihan untuk lipatan silang pertama dan v1 adalah indeks validasi untuk lipatan silang pertama.

Untuk menentukan data yang sudah ada sebagai data validasi, gunakan validation_data. Untuk membiarkan AutoML mengekstrak data validasi dari data pelatihan, tentukan salah satu dari n_cross_validations atau validation_size. Gunakan cv_split_column_names jika Anda memiliki kolom validasi silang di training_data.

validation_size: float

Diperlukan

Bilangan pecahan data yang harus ditahan untuk validasi saat data validasi pengguna tidak ditentukan. Bilangan pecahan ini harus antara 0,0 dan 1,0 non-inklusif.

Tentukan validation_data untuk menyediakan data validasi, jika tidak, tetapkan n_cross_validations atau validation_size untuk mengekstrak data validasi dari data pelatihan yang ditentukan. Untuk lipatan validasi silang kustom, gunakan cv_split_column_names.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

n_cross_validations: int

Diperlukan

Banyaknya validasi silang yang harus dilakukan ketika data validasi pengguna tidak ditentukan.

Tentukan validation_data untuk menyediakan data validasi, jika tidak, tetapkan n_cross_validations atau validation_size untuk mengekstrak data validasi dari data pelatihan yang ditentukan. Untuk lipatan validasi silang kustom, gunakan cv_split_column_names.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

y_min: float

Diperlukan

Nilai minimum y untuk eksperimen regresi. Kombinasi y_min dan y_max digunakan untuk menormalkan metrik set percobaan berdasarkan rentang data input. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

y_max: float

Diperlukan

Nilai maksimum y untuk eksperimen regresi. Kombinasi y_min dan y_max digunakan untuk menormalkan metrik set percobaan berdasarkan rentang data input. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

num_classes: int

Diperlukan

Jumlah kelas dalam data label untuk eksperimen klasifikasi. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

featurization: str atau FeaturizationConfig

Diperlukan

Indikator 'auto' / 'off' / FeaturizationConfig untuk menentukan apakah langkah featurization harus dilakukan secara otomatis atau tidak, atau apakah featurization yang disesuaikan harus digunakan. Catatan: Jika data inputnya merupakan data sparse, featurization tidak dapat diaktifkan.

Jenis kolom terdeteksi secara otomatis. Berdasarkan jenis kolom yang terdeteksi, pra-pemrosesan/featurization dilakukan sebagai berikut:

Kategoris: Pengodean target, pengodean one-hot, penghapusan kategori kardinalitas tinggi, penghitungan nilai yang hilang.
Numerik: penghitungan nilai yang hilang, jarak kluster, berat bukti.
Tanggalwaktu: Fitur waktu seperti hari, detik, menit, jam dll.
Teks: Model Bag of words, model pre-trained Word embedding, pengodean target teks.

Detail lebih lanjut dapat ditemukan di artikel Mengonfigurasi eksperimen ML otomatis di Python.

Untuk menyesuaikan langkah featurization, sediakan objek FeaturizationConfig. Featurization yang disesuaikan saat ini mendukung pemblokiran satu set transformator, memperbarui tujuan kolom, mengedit parameter transformator, dan menghapus kolom. Untuk informasi selengkapnya, lihat Menyesuaikan teknik fitur.

Catatan: Fitur rangkaian waktu ditangani secara terpisah saat jenis tugas diatur ke prakiraan independen dari parameter ini.

max_cores_per_iteration: int

Diperlukan

Jumlah maksimum rangkaian yang digunakan untuk perulangan pelatihan tertentu. Nilai yang dapat diterima:

Lebih besar dari 1 dan kurang dari atau sama dengan jumlah maksimum core pada target komputasi.
Sama dengan -1, yang berarti menggunakan semua core yang memungkinkan per perulangan per eksekusi turunan.
Sama dengan 1, default.

max_concurrent_iterations: int

Diperlukan

Menunjukkan jumlah maksimum perulangan yang akan dieksekusi secara paralel. Nilai default adalah 1.

Kluster AmlCompute mendukung satu perulangan yang berjalan per node. Untuk beberapa eksekusi induk eksperimen AutoML yang dijalankan secara paralel pada kluster AmlCompute tunggal, jumlah nilai max_concurrent_iterations untuk semua eksperimen harus kurang dari atau sama dengan jumlah maksimum node. Jika tidak, eksekusi akan menjadi antrean sampai node tersedia.
DSVM mendukung beberapa perulangan per node. max_concurrent_iterations harus kurang dari atau sama dengan jumlah core pada DSVM. Untuk beberapa eksperimen yang dijalankan secara paralel pada DSVM tunggal, jumlah nilai max_concurrent_iterations untuk semua eksperimen harus kurang dari atau sama dengan jumlah node maksimum.
Databricks - max_concurrent_iterations harus kurang dari atau sama dengan jumlah node pekerja di Databricks.

max_concurrent_iterations tidak berlaku untuk eksekusi lokal. Sebelumnya, parameter ini diberi nama concurrent_iterations.

iteration_timeout_minutes: int

Diperlukan

Waktu maksimum dalam menit pada setiap perulangan sebelum berakhir. Jika tidak ditentukan, nilai 1 bulan atau 43200 menit akan digunakan.

mem_in_mb: int

Diperlukan

Penggunaan maksimum memori pada setiap perulangan sebelum berakhir. Jika tidak ditentukan, nilai 1 PB atau 1073741824 MB akan digunakan.

enforce_time_on_windows: bool

Diperlukan

Penerapan batas waktu untuk pelatihan model pada setiap perulangan di platform Windows. Defaultnya adalah True. Jika berjalan dari file skrip Python (.py), lihat dokumentasi untuk mengizinkan batas sumber daya pada Windows.

experiment_timeout_hours: float

Diperlukan

Jumlah waktu maksimum dalam jam yang diperlukan semua iterasi sebelum eksperimen diakhiri. Bisa berupa nilai desimal seperti 0,25 yang menunjukkan 15 menit. Jika tidak ditentukan, batas waktu eksperimen default adalah 6 hari. Untuk menentukan batas waktu kurang dari atau sama dengan 1 jam, pastikan ukuran himpunan data Anda tidak lebih besar dari 10.000.000 (kolom waktu baris) atau kesalahan akan muncul.

experiment_exit_score: float

Diperlukan

Skor target untuk eksperimen. Eksperimen berakhir setelah skor ini tercapai. Jika tidak ditentukan (tidak ada kriteria), eksperimen akan berjalan hingga tidak ada progres lebih lanjut terjadi di metrik utama. Untuk informasi selengkapnya tentang kriteria keluar, lihat artikel ini.

enable_early_stopping: bool

Diperlukan

Pengaktifan penghentian dini jika skor tidak meningkat dalam jangka pendek. Defaultnya adalah True.

Logika penghentian dini:

Tidak ada penghentian dini untuk 20 perulangan pertama (landmark).
Jendela penghentian dini dimulai pada perulangan ke-21 dan mencari perulangan early_stopping_n_iters

(saat ini diatur ke 10). Hal ini berarti bahwa penghentian dapat terjadi pertama kali pada perulangan ke-31.
AutoML masih menjadwalkan 2 perulangan ansambel SETELAH penghentian dini, yang dapat mengakibatkan

skor yang lebih tinggi.
Penghentian dini dapat dipicu jika nilai absolut dari skor terbaik yang terhitung sama dengan

perulangan early_stopping_n_iters terakhir, artinya, tidak ada peningkatan skor untuk perulangan early_stopping_n_iters.

blocked_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Daftar algoritma yang harus diabaikan untuk sebuah eksperimen. Jika enable_tf False, model TensorFlow akan disertakan dalam blocked_models.

blacklist_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Parameter tidak digunakan lagi, gunakan blocked_models sebagai gantinya.

exclude_nan_labels: bool

Diperlukan

Pengecualian baris dengan nilai NaN dalam label. Defaultnya adalah True.

verbosity: int

Diperlukan

Tingkat verbositas untuk menulis ke file log. Defaultnya adalah INFO atau 20. Nilai yang dapat diterima ditentukan dalam pustaka pengelogan Python.

enable_tf: bool

Diperlukan

Parameter tidak digunakan lagi untuk mengaktifkan/menonaktifkan algoritma Tensorflow. Defaultnya adalah False.

model_explainability: bool

Diperlukan

Pengaktifan penjelasan model AutoML terbaik di akhir semua perulangan pelatihan AutoML. Defaultnya adalah True. Untuk informasi selengkapnya, lihat Interpretabilitas: penjelasan model dalam pembelajaran mesin otomatis.

allowed_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Daftar nama model untuk mencari eksperimen. Jika tidak ditentukan, semua model yang didukung untuk tugas akan digunakan, kecuali model yang ditentukan dalam blocked_models atau TensorFlow yang tidak digunakan lagi. Model yang didukung untuk setiap jenis tugas dijelaskan di kelas SupportedModels.

whitelist_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Parameter tidak digunakan lagi, gunakan allowed_models sebagai gantinya.

enable_onnx_compatible_models: bool

Diperlukan

Pengaktifan atau penonaktifan penerapan model yang kompatibel dengan ONNX. Defaultnya adalah False. Untuk informasi selengkapnya tentang Open Neural Network Exchange (ONNX) dan Azure Machine Learning, lihat artikel ini.

forecasting_parameters: ForecastingParameters

Diperlukan

Objek ForecastingParameters untuk menahan semua prakiraan parameter tertentu.

time_column_name: str

Diperlukan

Nama kolom waktu. Parameter ini diperlukan saat melakukan prakiraan untuk menentukan kolom tanggalwaktu dalam data input yang digunakan untuk membangun rangkaian waktu dan menyimpulkan frekuensinya. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

max_horizon: int

Diperlukan

Horizon prakiraan maksimum yang diinginkan dalam unit frekuensi rangkaian waktu. Nilai default adalah 1.

Unit didasarkan pada interval waktu yang harus diprediksi oleh forecaster di data pelatihan Anda, misalnya, bulanan atau mingguan. Saat jenis tugas diprakirakan, parameter ini akan diperlukan. Untuk informasi selengkapnya mengenai pengaturan parameter prakiraan, lihat Melatih model prakiraan rangkaian waktu secara otomatis. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

grain_column_names: str atau list(str)

Diperlukan

Nama kolom yang digunakan untuk mengelompokkan rangkaian waktu. Nama tersebut dapat digunakan untuk membuat beberapa rangkaian waktu. Jika grain tidak ditetapkan, himpunan data akan diasumsikan dalam satu rangkaian waktu. Parameter ini digunakan dalam prakiraan jenis tugas. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

target_lags: int atau list(int)

Diperlukan

Jumlah periode sebelumnya yang terjeda dari kolom target. Defaultnya adalah 1. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

Saat melakukan prakiraan, parameter ini menunjukkan jumlah baris yang terjeda dari nilai target berdasarkan frekuensi data. Jeda ini direpresentasikan sebagai satu daftar atau satu bilangan bulat. Jeda harus digunakan ketika hubungan antara variabel independen dan variabel dependen tidak cocok atau berkorelasi secara default. Misalnya, ketika mencoba memperkirakan permintaan untuk suatu produk, permintaan setiap bulan dapat bergantung pada harga komoditas tertentu pada 3 bulan sebelumnya. Dalam contoh ini, Anda mungkin ingin menjeda target (permintaan) secara negatif selama 3 bulan sehingga model tersebut melatih hubungan yang benar. Untuk informasi selengkapnya, lihat Melatih model prakiraan rangkaian waktu secara otomatis.

feature_lags: str

Diperlukan

Bendera pembuatan jeda untuk fitur numerik. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

target_rolling_window_size: int

Diperlukan

Jumlah periode sebelumnya yang digunakan untuk membuat rata-rata jendela bergulir dari kolom target. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

Saat melakukan prakiraan, parameter ini mewakili periode historis n yang digunakan untuk menghasilkan nilai yang diperkirakan, <= ukuran set pelatihan. Jika dihilangkan, n adalah ukuran set pelatihan penuh. Tentukan parameter ini ketika Anda hanya ingin mempertimbangkan sejumlah riwayat tertentu saat melatih model.

country_or_region: str

Diperlukan

Negara/wilayah yang digunakan untuk membuat fitur hari libur. Tindakan ini harus menggunakan pengodean dua huruf ISO 3166 untuk negara/wilayah, misalnya 'AS' atau 'GB'. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

use_stl: str

Diperlukan

Konfigurasikan Dekomposisi STL dari kolom target rangkaian waktu. use_stl dapat mengambil tiga nilai: Tidak Ada (default) - tidak ada dekomposisi stl, 'musim' - hanya menghasilkan komponen musim, dan season_trend - menghasilkan komponen musim dan tren. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

seasonality: int atau str

Diperlukan

Tetapkan musiman rangkaian waktu. Jika musiman diatur ke 'otomatis', musiman akan disimpulkan. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

short_series_handling_configuration: str

Diperlukan

Parameter yang menentukan cara jika AutoML harus menangani rangkaian waktu yang singkat.

Nilai yang mungkin: 'otomatis' (default), 'pad', 'drop' dan Tidak Ada.

auto rangkaian singkat akan diberi pad jika tidak ada rangkaian panjang, sebaliknya, rangkaian singkat akan dihilangkan.
pad semua rangkaian singkat akan diberi pad.
drop semua rangkaian singkat akan dihilangkan".
Tidak Ada rangkaian singkat tidak akan diubah. Jika diatur ke 'pad', tabel akan dilapisi dengan nol dan nilai kosong untuk regresor dan nilai acak untuk target dengan rata-rata sama dengan median nilai target untuk id rangkaian waktu tertentu. Jika median lebih atau sama dengan nol, nilai pad minimal akan dipotong dengan nol: Input:

Tanggal

numeric_value

string

target

01-01-2020

23

green

55

Output dengan asumsi jumlah nilai minimal adalah empat:

Tanggal

numeric_value

string

target

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

01-01-2020

23

green

55

Catatan: Kami memiliki dua parameter short_series_handling_configuration dan legasi short_series_handling. Ketika kedua parameter ditetapkan, kami menyinkronkannya seperti yang ditunjukkan pada tabel di bawah ini (short_series_handling_configuration dan short_series_handling untuk singkatnya, masing-masing ditandai sebagai handling_configuration dan handling).

Penanganan

handling_configuration

penanganan yang dihasilkan

menghasilkan handling_configuration

True

auto

True

auto

True

Pad

True

auto

True

hilangkan

True

auto

True

Tidak ada

False

Tidak ada

FALSE

auto

False

Tidak ada

FALSE

Pad

False

Tidak ada

FALSE

hilangkan

False

Tidak ada

False

Tidak ada

False

Tidak ada

freq: str atau None

Diperlukan

Frekuensi prakiraan.

Saat melakukan prakiraan, parameter ini mewakili periode pada suatu prakiraan, misalnya harian, mingguan, tahunan, dll. Frekuensi prakiraan adalah frekuensi himpunan data secara default. Anda dapat secara opsional mengaturnya menjadi lebih besar (tetapi tidak lebih rendah) dari frekuensi himpunan data. Kami akan mengagregasi data dan menghasilkan hasil pada frekuensi prakiraan. Misalnya, untuk data harian, Anda dapat mengatur frekuensi menjadi harian, mingguan, atau bulanan, tetapi tidak per jam. Frekuensinya harus alias offset panda. Lihat dokumentasi panda untuk informasi selengkapnya: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str atau None

Diperlukan

Fungsi yang akan digunakan untuk mengagregasi kolom target rangkaian waktu agar sesuai dengan frekuensi yang ditentukan pengguna. Jika target_aggregation_function telah ditetapkan, tetapi parameter frekuensi tidak ditetapkan, kesalahan akan muncul. Fungsi agregasi target yang memungkinkan adalah: "sum", "max", "min" dan "mean".

Frek

target_aggregation_function

Mekanisme perbaikan keteraturan data

Tidak ada (Default)

Agregasi tidak diterapkan. Jika frekuensi yang valid tidak dapat ditentukan, kesalahan akan dimunculkan.

Beberapa Nilai

Tidak ada (Default)

Agregasi tidak diterapkan. Jika jumlah titik data yang sesuai dengan kisi frekuensi yang diberikan kurang maka 90%titik ini akan dihapus, jika tidak, kesalahan akan dimunculkan.

Tidak ada (Default)

Fungsi agregasi

Kesalahan tentang parameter frekuensi yang hilang dimunculkan.

Beberapa Nilai

Fungsi agregasi

Agregat ke frekuensi menggunakan fungsi providedaggregation.

enable_voting_ensemble: bool

Diperlukan

Pengaktifan/penonaktifan perulangan VotingEnsemble. Defaultnya adalah True. Untuk informasi selengkapnya tentang ansambel, lihat Konfigurasi ansambel.

enable_stack_ensemble: bool

Diperlukan

Pengaktifan/penonaktifan perulangan StackEnsemble. Default Tidak Ada. Jika bendera enable_onnx_compatible_models sedang diatur, perulangan StackEnsemble akan dinonaktifkan. Demikian pula, untuk tugas Rangkaian Waktu, perulangan StackEnsemble akan dinonaktifkan secara default, untuk menghindari risiko overfitting karena rangkaian pelatihan kecil yang digunakan dalam pemasangan meta learner. Untuk informasi selengkapnya tentang ansambel, lihat Konfigurasi ansambel.

debug_log: str

Diperlukan

File log untuk penulisan informasi debug. Jika tidak ditentukan, 'automl.log' akan digunakan.

training_data: DataFrame atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Data pelatihan yang akan digunakan dalam eksperimen. Data tersebut harus berisi fitur pelatihan dan kolom label (opsional untuk kolom bobot sampel). Jika training_data ditentukan, parameter label_column_name juga harus ditentukan.

training_data diperkenalkan di versi 1.0.81.

validation_data: DataFrame atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Data validasi yang digunakan dalam eksperimen. Data tersebut harus berisi fitur pelatihan dan kolom label (opsional untuk kolom bobot sampel). Jika validation_data ditentukan, parameter training_data dan label_column_name harus ditentukan.

validation_data diperkenalkan di versi 1.0.81. Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

test_data: Dataset atau TabularDataset

Diperlukan

Fitur Pengujian Model menggunakan himpunan data pengujian atau pemisahan data pengujian adalah fitur dalam status Pratinjau dan dapat berubah kapan saja. Data uji yang digunakan untuk uji coba yang secara otomatis akan dimulai setelah pelatihan model selesai. Uji coba akan mendapatkan prediksi menggunakan model terbaik dan menghitung metrik yang diberikan prediksi ini.

Jika parameter ini atau parameter test_size tidak ditentukan, uji coba tidak akan dijalankan secara otomatis setelah pelatihan model selesai. Data uji harus berisi fitur dan kolom label. Jika test_data ditentukan, parameter label_column_name juga harus ditentukan.

test_size: float

Diperlukan

Fitur Pengujian Model menggunakan himpunan data pengujian atau pemisahan data pengujian adalah fitur dalam status Pratinjau dan dapat berubah kapan saja. Bilangan pecahan data pelatihan yang harus ditahan untuk data uji agar uji coba dapat secara otomatis dimulai setelah pelatihan model selesai. Uji coba akan mendapatkan prediksi menggunakan model terbaik dan menghitung metrik yang diberikan prediksi ini.

Bilangan pecahan ini harus antara 0,0 dan 1,0 non-inklusif. Jika test_size ditentukan bersamaan dengan validation_size, data uji akan dipisah dari training_data sebelum data validasi dipisah. Misalnya, jika validation_size=0.1, test_size=0.1, dan data pelatihan asli memiliki 1000 baris, data uji akan memiliki 100 baris, data validasi akan berisi 90 baris, dan data pelatihan akan memiliki 810 baris.

Untuk tugas berbasis regresi, metode pengambilan sampel acak akan digunakan. Untuk tugas klasifikasi, metode pengambilan sampel bertingkat akan digunakan. Prakiraan saat ini tidak mendukung penentuan himpunan data pengujian menggunakan pembagian latihan/pengujian.

Jika parameter ini atau parameter test_data tidak ditentukan, uji coba tidak akan dijalankan secara otomatis setelah pelatihan model selesai.

label_column_name: Union[str, int]

Diperlukan

Nama kolom label. Jika data input berasal dari panda.DataFrame yang tidak memiliki nama kolom, indeks kolom dapat digunakan dan dinyatakan sebagai bilangan bulat.

Parameter ini berlaku untuk parameter training_data, validation_data, dan test_data. label_column_name diperkenalkan di versi 1.0.81.

weight_column_name: Union[str, int]

Diperlukan

Nama kolom bobot sampel. ML otomatis mendukung kolom yang diberatkan sebagai input, menyebabkan baris dalam data dinaikkan atau diturunkan. Jika data input berasal dari panda.DataFrame yang tidak memiliki nama kolom, indeks kolom dapat digunakan dan dinyatakan sebagai bilangan bulat.

Parameter ini berlaku untuk parameter training_data dan validation_data. weight_column_names diperkenalkan di versi 1.0.81.

cv_split_column_names: list(str)

Diperlukan

Daftar nama untuk kolom yang berisi pemisahan validasi silang kustom. Masing-masing kolom pemisahan validasi silang mewakili satu pemisahan validasi silang yang setiap barisnya ditandai 1 untuk pelatihan atau 0 untuk validasi.

Parameter ini berlaku untuk parameter training_data untuk tujuan validasi silang kustom. cv_split_column_names diperkenalkan di versi 1.6.0

Gunakan salah satu dari cv_split_column_names atau cv_splits_indices.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

enable_local_managed: bool

Diperlukan

Parameter dinonaktifkan. Eksekusi terkelola lokal saat ini tidak dapat diaktifkan.

enable_dnn: bool

Diperlukan

Penyertaan model berbasis DNN selama pemilihan model. Default dalam init adalah Tidak Ada. Namun, untuk tugas NLP DNN, defaultnya adalah True, dan untuk semua tugas AutoML lainnya, defaultnya adalah False.

task: str atau Tasks

Diperlukan

Jenis tugas yang akan dijalankan. Nilai dapat berupa 'klasifikasi', 'regresi', atau 'prakiraan' tergantung pada jenis masalah pembelajaran mesin otomatis yang harus dipecahkan.

path: str

Diperlukan

Jalur lengkap ke folder proyek Azure Machine Learning. Jika tidak ditentukan, defaultnya akan menggunakan direktori saat ini atau ".".

iterations: int

Diperlukan

Total jumlah kombinasi algoritma dan parameter yang berbeda yang akan diuji selama eksperimen pembelajaran mesin otomatis. Jika tidak ditentukan, defaultnya adalah 1000 perulangan.

primary_metric: str atau Metric

Diperlukan

Metrik yang akan dioptimalkan oleh Pembelajaran Mesin Otomatis untuk pemilihan model. Pembelajaran Mesin Otomatis mengumpulkan lebih banyak metrik daripada yang dapat dioptimalkan. Anda dapat menggunakan get_primary_metrics guna mendapatkan daftar metrik yang valid untuk tugas yang diberikan. Untuk informasi selengkapnya mengenai cara penghitungan metrik, lihat https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Jika tidak ditentukan, akurasi digunakan untuk tugas klasifikasi, rata-rata kuadrat yang dinormalisasi digunakan untuk tugas prakiraan dan regresi, akurasi digunakan untuk klasifikasi gambar dan klasifikasi gambar multi label, dan mean average precision (MAP) digunakan untuk deteksi objek gambar.

positive_label: Any

Diperlukan

Label kelas positif yang akan digunakan oleh Pembelajaran Mesin Otomatis untuk menghitung metrik biner. Metrik biner dihitung pada dua kondisi untuk tugas klasifikasi:

kolom label terdiri dari dua kelas yang menunjukkan tugas klasifikasi biner AutoML akan menggunakan kelas positif tertentu ketika positive_label diteruskan, jika tidak, AutoML akan memilih kelas positif berdasarkan nilai yang dikodekan label.
tugas klasifikasi multi kelas dengan positive_label ditentukan

Untuk informasi selengkapnya tentang klasifikasi, lihat metrik untuk skenario klasifikasi.

compute_target: AbstractComputeTarget

Diperlukan

Target komputasi Azure Machine Learning untuk eksekusi eksperimen Pembelajaran Mesin Otomatis. Lihat https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote untuk informasi selengkapnya tentang target komputasi.

spark_context: <xref:SparkContext>

Diperlukan

Konteks Spark. Hanya berlaku saat digunakan di dalam lingkungan Azure Databricks/Spark.

X: DataFrame atau ndarray atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Fitur pelatihan yang digunakan saat memasang alur selama eksperimen. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan label_column_name sebagai gantinya.

y: DataFrame atau ndarray atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Label pelatihan yang digunakan saat memasang alur selama eksperimen. Ini adalah nilai yang akan diprediksi oleh model Anda. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan label_column_name sebagai gantinya.

sample_weight: DataFrame atau ndarray atau TabularDataset

Diperlukan

Bobot yang diberikan ke setiap sampel pelatihan saat menjalankan pemasangan alur, setiap baris harus sesuai dengan baris dalam data X dan y.

Tentukan parameter ini ketika menentukan X. Pengaturan ini tidak digunakan lagi. Gunakan training_data dan weight_column_name sebagai gantinya.

X_valid: DataFrame atau ndarray atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Fitur validasi yang digunakan saat memasang alur selama eksperimen.

Jika ditentukan, y_valid atau sample_weight_valid juga harus ditentukan. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan label_column_name sebagai gantinya.

y_valid: DataFrame atau ndarray atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Label validasi yang digunakan saat memasang alur selama eksperimen.

X_valid dan y_valid harus ditentukan bersamaan. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan label_column_name sebagai gantinya.

sample_weight_valid: DataFrame atau ndarray atau TabularDataset

Diperlukan

Bobot yang diberikan ke setiap sampel validasi saat menjalankan penilaian alur, setiap baris harus sesuai dengan baris dalam data X dan y.

Tentukan parameter ini ketika menentukan X_valid. Pengaturan ini tidak digunakan lagi. Gunakan validation_data dan weight_column_name sebagai gantinya.

cv_splits_indices: List[List[ndarray]]

Diperlukan

Indeks pemisahan data pelatihan untuk validasi silang. Setiap baris adalah lipatan silang yang terpisah dan dalam setiap lipatan silang, menyediakan 2 larik, yang pertama larik dengan indeks untuk sampel yang akan digunakan untuk data pelatihan dan yang kedua larik dengan indeks yang akan digunakan untuk data validasi. misalnya, [[t1, v1], [t2, v2], ...] dalam hal ini, t1 adalah indeks pelatihan untuk lipatan silang pertama dan v1 adalah indeks validasi untuk lipatan silang pertama. Opsi ini didukung saat data diteruskan sebagai himpunan data Fitur terpisah dan kolom Label.

Untuk menentukan data yang sudah ada sebagai data validasi, gunakan validation_data. Untuk membiarkan AutoML mengekstrak data validasi dari data pelatihan, tentukan salah satu dari n_cross_validations atau validation_size. Gunakan cv_split_column_names jika Anda memiliki kolom validasi silang di training_data.

validation_size: float

Diperlukan

Bilangan pecahan data yang harus ditahan untuk validasi saat data validasi pengguna tidak ditentukan. Bilangan pecahan ini harus antara 0,0 dan 1,0 non-inklusif.

Tentukan validation_data untuk menyediakan data validasi, jika tidak, tetapkan n_cross_validations atau validation_size untuk mengekstrak data validasi dari data pelatihan yang ditentukan. Untuk lipatan validasi silang kustom, gunakan cv_split_column_names.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

n_cross_validations: int atau str

Diperlukan

Banyaknya validasi silang yang harus dilakukan ketika data validasi pengguna tidak ditentukan.

Tentukan validation_data untuk menyediakan data validasi, jika tidak, tetapkan n_cross_validations atau validation_size untuk mengekstrak data validasi dari data pelatihan yang ditentukan. Untuk lipatan validasi silang kustom, gunakan cv_split_column_names.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

y_min: float

Diperlukan

Nilai minimum y untuk eksperimen regresi. Kombinasi y_min dan y_max digunakan untuk menormalkan metrik set percobaan berdasarkan rentang data input. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

y_max: float

Diperlukan

Nilai maksimum y untuk eksperimen regresi. Kombinasi y_min dan y_max digunakan untuk menormalkan metrik set percobaan berdasarkan rentang data input. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

num_classes: int

Diperlukan

Jumlah kelas dalam data label untuk eksperimen klasifikasi. Pengaturan ini tidak digunakan lagi. Sebagai gantinya, nilai ini akan dihitung dari data.

featurization: str atau FeaturizationConfig

Diperlukan

Indikator 'auto' / 'off' / FeaturizationConfig untuk menentukan apakah langkah featurization harus dilakukan secara otomatis atau tidak, atau apakah featurization yang disesuaikan harus digunakan. Catatan: Jika data inputnya merupakan data sparse, featurization tidak dapat diaktifkan.

Jenis kolom terdeteksi secara otomatis. Berdasarkan jenis kolom yang terdeteksi, pra-pemrosesan/featurization dilakukan sebagai berikut:

Kategoris: Pengodean target, pengodean one-hot, penghapusan kategori kardinalitas tinggi, penghitungan nilai yang hilang.
Numerik: penghitungan nilai yang hilang, jarak kluster, berat bukti.
Tanggalwaktu: Fitur waktu seperti hari, detik, menit, jam dll.
Teks: Model Bag of words, model pre-trained Word embedding, pengodean target teks.

Detail lebih lanjut dapat ditemukan di artikel Mengonfigurasi eksperimen ML otomatis di Python.

Untuk menyesuaikan langkah featurization, sediakan objek FeaturizationConfig. Featurization yang disesuaikan saat ini mendukung pemblokiran satu set transformator, memperbarui tujuan kolom, mengedit parameter transformator, dan menghapus kolom. Untuk informasi selengkapnya, lihat Menyesuaikan teknik fitur.

Catatan: Fitur rangkaian waktu ditangani secara terpisah saat jenis tugas diatur ke prakiraan independen dari parameter ini.

max_cores_per_iteration: int

Diperlukan

Jumlah maksimum rangkaian yang digunakan untuk perulangan pelatihan tertentu. Nilai yang dapat diterima:

Lebih besar dari 1 dan kurang dari atau sama dengan jumlah maksimum core pada target komputasi.
Sama dengan -1, yang berarti menggunakan semua core yang memungkinkan per perulangan per eksekusi turunan.
Sama dengan 1, nilai default.

max_concurrent_iterations: int

Diperlukan

Menunjukkan jumlah maksimum perulangan yang akan dieksekusi secara paralel. Nilai default adalah 1.

Kluster AmlCompute mendukung satu perulangan yang berjalan per node. Untuk beberapa eksperimen yang berjalan secara paralel pada satu kluster AmlCompute, jumlah max_concurrent_iterations nilai untuk semua eksperimen harus kurang dari atau sama dengan jumlah maksimum simpul.
DSVM mendukung beberapa perulangan per node. max_concurrent_iterations harus kurang dari atau sama dengan jumlah core pada DSVM. Untuk beberapa eksperimen yang dijalankan secara paralel pada DSVM tunggal, jumlah nilai max_concurrent_iterations untuk semua eksperimen harus kurang dari atau sama dengan jumlah node maksimum.
Databricks - max_concurrent_iterations harus kurang dari atau sama dengan jumlah node pekerja di Databricks.

max_concurrent_iterations tidak berlaku untuk eksekusi lokal. Sebelumnya, parameter ini diberi nama concurrent_iterations.

iteration_timeout_minutes: int

Diperlukan

Waktu maksimum dalam menit pada setiap perulangan sebelum berakhir. Jika tidak ditentukan, nilai 1 bulan atau 43200 menit akan digunakan.

mem_in_mb: int

Diperlukan

Penggunaan maksimum memori pada setiap perulangan sebelum berakhir. Jika tidak ditentukan, nilai 1 PB atau 1073741824 MB akan digunakan.

enforce_time_on_windows: bool

Diperlukan

Penerapan batas waktu untuk pelatihan model pada setiap perulangan di platform Windows. Defaultnya adalah True. Jika berjalan dari file skrip Python (.py), lihat dokumentasi untuk mengizinkan batas sumber daya pada Windows.

experiment_timeout_hours: float

Diperlukan

Jumlah waktu maksimum dalam jam yang diperlukan semua iterasi sebelum eksperimen diakhiri. Bisa berupa nilai desimal seperti 0,25 yang menunjukkan 15 menit. Jika tidak ditentukan, batas waktu eksperimen default adalah 6 hari. Untuk menentukan batas waktu kurang dari atau sama dengan 1 jam, pastikan ukuran himpunan data Anda tidak lebih besar dari 10.000.000 (kolom waktu baris) atau kesalahan akan muncul.

experiment_exit_score: float

Diperlukan

Skor target untuk eksperimen. Eksperimen berakhir setelah skor ini tercapai. Jika tidak ditentukan (tidak ada kriteria), eksperimen akan berjalan hingga tidak ada progres lebih lanjut terjadi di metrik utama. Untuk informasi selengkapnya tentang kriteria keluar, lihat '_<<ini>>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria.

enable_early_stopping: bool

Diperlukan

Pengaktifan penghentian dini jika skor tidak meningkat dalam jangka pendek. Defaultnya adalah True.

Logika penghentian dini:

Tidak ada penghentian dini untuk 20 perulangan pertama (landmark).
Jendela penghentian awal dimulai pada iterasi ke-21 dan mencari perulangan early_stopping_n_iters (saat ini diatur ke 10). Hal ini berarti bahwa penghentian dapat terjadi pertama kali pada perulangan ke-31.
AutoML masih menjadwalkan 2 iterasi ansambel SETELAH penghentian awal, yang mungkin menghasilkan skor yang lebih tinggi.
Penghentian awal dipicu jika nilai absolut skor terbaik yang dihitung sama untuk iterasi early_stopping_n_iters sebelumnya, yaitu, jika tidak ada peningkatan skor untuk perulangan early_stopping_n_iters.

blocked_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Daftar algoritma yang harus diabaikan untuk sebuah eksperimen. Jika enable_tf False, model TensorFlow akan disertakan dalam blocked_models.

blacklist_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Parameter tidak digunakan lagi, gunakan blocked_models sebagai gantinya.

exclude_nan_labels: bool

Diperlukan

Pengecualian baris dengan nilai NaN dalam label. Defaultnya adalah True.

verbosity: int

Diperlukan

Tingkat verbositas untuk menulis ke file log. Defaultnya adalah INFO atau 20. Nilai yang dapat diterima ditentukan dalam pustaka pengelogan Python.

enable_tf: bool

Diperlukan

Apakah akan mengaktifkan/menonaktifkan algoritma TensorFlow. Defaultnya adalah False.

model_explainability: bool

Diperlukan

Pengaktifan penjelasan model AutoML terbaik di akhir semua perulangan pelatihan AutoML. Defaultnya adalah True. Untuk informasi selengkapnya, lihat Interpretabilitas: penjelasan model dalam pembelajaran mesin otomatis.

allowed_models: list(str) atau list(Classification) <xref:for classification task> atau list(Regression) <xref:for regression task> atau list(Forecasting) <xref:for forecasting task>

Diperlukan

Daftar nama model untuk mencari eksperimen. Jika tidak ditentukan, semua model yang didukung untuk tugas akan digunakan, kecuali model yang ditentukan dalam blocked_models atau TensorFlow yang tidak digunakan lagi. Model yang didukung untuk setiap jenis tugas dijelaskan di kelas SupportedModels.

allowed_models

Diperlukan

Daftar nama model untuk mencari eksperimen. Jika tidak ditentukan, semua model yang didukung untuk tugas akan digunakan, kecuali model yang ditentukan dalam blocked_models atau TensorFlow yang tidak digunakan lagi. Model yang didukung untuk setiap jenis tugas dijelaskan di kelas SupportedModels.

whitelist_models

Diperlukan

Parameter tidak digunakan lagi, gunakan allowed_models sebagai gantinya.

enable_onnx_compatible_models: bool

Diperlukan

Pengaktifan atau penonaktifan penerapan model yang kompatibel dengan ONNX. Defaultnya adalah False. Untuk informasi selengkapnya tentang Open Neural Network Exchange (ONNX) dan Azure Machine Learning, lihat artikel ini.

forecasting_parameters: ForecastingParameters

Diperlukan

Objek untuk menyimpan semua parameter khusus prakiraan.

time_column_name: str

Diperlukan

Nama kolom waktu. Parameter ini diperlukan saat melakukan prakiraan untuk menentukan kolom tanggalwaktu dalam data input yang digunakan untuk membangun rangkaian waktu dan menyimpulkan frekuensinya. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

max_horizon: int

Diperlukan

Horizon prakiraan maksimum yang diinginkan dalam unit frekuensi rangkaian waktu. Nilai default adalah 1. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

Unit didasarkan pada interval waktu yang harus diprediksi oleh forecaster di data pelatihan Anda, misalnya, bulanan atau mingguan. Saat jenis tugas diprakirakan, parameter ini akan diperlukan. Untuk informasi selengkapnya tentang pengaturan parameter prakiraan, lihat Melatih otomatis model prakiraan rangkaian waktu.

grain_column_names: str atau list(str)

Diperlukan

Nama kolom yang digunakan untuk mengelompokkan rangkaian waktu. Nama tersebut dapat digunakan untuk membuat beberapa rangkaian waktu. Jika grain tidak ditetapkan, himpunan data akan diasumsikan dalam satu rangkaian waktu. Parameter ini digunakan dalam prakiraan jenis tugas. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

target_lags: int atau list(int)

Diperlukan

Jumlah periode sebelumnya yang terjeda dari kolom target. Defaultnya adalah 1. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

Saat melakukan prakiraan, parameter ini menunjukkan jumlah baris yang terjeda dari nilai target berdasarkan frekuensi data. Jeda ini direpresentasikan sebagai satu daftar atau satu bilangan bulat. Jeda harus digunakan ketika hubungan antara variabel independen dan variabel dependen tidak cocok atau berkorelasi secara default. Misalnya, ketika mencoba memperkirakan permintaan untuk suatu produk, permintaan setiap bulan dapat bergantung pada harga komoditas tertentu pada 3 bulan sebelumnya. Dalam contoh ini, Anda mungkin ingin menjeda target (permintaan) secara negatif selama 3 bulan sehingga model tersebut melatih hubungan yang benar. Untuk informasi selengkapnya, lihat Melatih model prakiraan rangkaian waktu secara otomatis.

feature_lags: str

Diperlukan

Bendera pembuatan jeda untuk fitur numerik. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

target_rolling_window_size: int

Diperlukan

Jumlah periode sebelumnya yang digunakan untuk membuat rata-rata jendela bergulir dari kolom target. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

Saat melakukan prakiraan, parameter ini mewakili periode historis n yang digunakan untuk menghasilkan nilai yang diperkirakan, <= ukuran set pelatihan. Jika dihilangkan, n adalah ukuran set pelatihan penuh. Tentukan parameter ini ketika Anda hanya ingin mempertimbangkan sejumlah riwayat tertentu saat melatih model.

country_or_region: str

Diperlukan

Negara/wilayah yang digunakan untuk membuat fitur liburan. Fitur ini harus ISO 3166 dua huruf kode negara/wilayah, misalnya 'AS' atau 'GB'. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

use_stl: str

Diperlukan

Konfigurasikan Dekomposisi STL dari kolom target rangkaian waktu. use_stl dapat mengambil tiga nilai: Tidak Ada (default) - tidak ada dekomposisi stl, 'musim' - hanya menghasilkan komponen musim, dan season_trend - menghasilkan komponen musim dan tren. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

seasonality: int

Diperlukan

Tetapkan musiman rangkaian waktu. Jika musiman diatur ke -1, ini akan disimpulkan. Jika use_stl tidak diatur, parameter ini tidak akan digunakan. Pengaturan ini tidak digunakan lagi. Gunakan forecasting_parameters sebagai gantinya.

short_series_handling_configuration: str

Diperlukan

Parameter yang menentukan cara jika AutoML harus menangani rangkaian waktu yang singkat.

Nilai yang mungkin: 'otomatis' (default), 'pad', 'drop' dan Tidak Ada.

auto rangkaian singkat akan diberi pad jika tidak ada rangkaian panjang, sebaliknya, rangkaian singkat akan dihilangkan.
pad semua rangkaian singkat akan diberi pad.
drop semua rangkaian singkat akan dihilangkan".
Tidak Ada rangkaian singkat tidak akan diubah. Jika diatur ke 'pad', tabel akan dilapisi dengan nol dan nilai kosong untuk regresor dan nilai acak untuk target dengan rata-rata sama dengan median nilai target untuk id rangkaian waktu tertentu. Jika median lebih atau sama dengan nol, nilai pad minimal akan dipotong dengan nol: Input:

Tanggal

numeric_value

string

target

01-01-2020

23

green

55

Output dengan asumsi jumlah nilai minimal adalah empat: +————+—————+———-+——–+ | Tanggal | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | hijau | 55 | +————+—————+———-+——–+

Catatan: Kami memiliki dua parameter short_series_handling_configuration dan legasi short_series_handling. Ketika kedua parameter ditetapkan, kami menyinkronkannya seperti yang ditunjukkan pada tabel di bawah ini (short_series_handling_configuration dan short_series_handling untuk singkatnya, masing-masing ditandai sebagai handling_configuration dan handling).

Penanganan

handling_configuration

penanganan yang dihasilkan

menghasilkan handling_configuration

True

auto

True

auto

True

Pad

True

auto

True

hilangkan

True

auto

True

Tidak ada

False

Tidak ada

FALSE

auto

False

Tidak ada

FALSE

Pad

False

Tidak ada

FALSE

hilangkan

False

Tidak ada

False

Tidak ada

False

Tidak ada

freq: str atau None

Diperlukan

Frekuensi prakiraan.

Saat melakukan prakiraan, parameter ini mewakili periode pada suatu prakiraan, misalnya harian, mingguan, tahunan, dll. Frekuensi prakiraan adalah frekuensi himpunan data secara default. Anda dapat secara opsional mengaturnya menjadi lebih besar (tetapi tidak lebih rendah) dari frekuensi himpunan data. Kami akan mengagregasi data dan menghasilkan hasil pada frekuensi prakiraan. Misalnya, untuk data harian, Anda dapat mengatur frekuensi menjadi harian, mingguan, atau bulanan, tetapi tidak per jam. Frekuensinya harus alias offset panda. Lihat dokumentasi panda untuk informasi selengkapnya: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str atau None

Diperlukan

Fungsi yang akan digunakan untuk mengagregasi kolom target rangkaian waktu agar sesuai dengan frekuensi yang ditentukan pengguna. Jika target_aggregation_function telah ditetapkan, tetapi parameter frekuensi tidak ditetapkan, kesalahan akan muncul. Fungsi agregasi target yang memungkinkan adalah: "sum", "max", "min" dan "mean".

Frek

target_aggregation_function

Mekanisme perbaikan keteraturan data

Tidak Ada (Default)

Agregasi tidak diterapkan. Jika frekuensi yang valid tidak dapat ditentukan, kesalahan akan dimunculkan.

Beberapa Nilai

Tidak Ada (Default)

Agregasi tidak diterapkan. Jika jumlah titik data yang sesuai dengan kisi frekuensi yang diberikan kurang maka 90%titik ini akan dihapus, jika tidak, kesalahan akan dimunculkan.

Tidak Ada (Default)

Fungsi agregasi

Kesalahan tentang parameter frekuensi yang hilang dimunculkan.

Beberapa Nilai

Fungsi agregasi

Agregat ke frekuensi menggunakan fungsi providedaggregation.

enable_voting_ensemble: bool

Diperlukan

Pengaktifan/penonaktifan perulangan VotingEnsemble. Defaultnya adalah True. Untuk informasi selengkapnya tentang ansambel, lihat Konfigurasi ansambel.

enable_stack_ensemble: bool

Diperlukan

Pengaktifan/penonaktifan perulangan StackEnsemble. Default Tidak Ada. Jika bendera enable_onnx_compatible_models sedang diatur, perulangan StackEnsemble akan dinonaktifkan. Demikian pula, untuk tugas Rangkaian Waktu, perulangan StackEnsemble akan dinonaktifkan secara default, untuk menghindari risiko overfitting karena rangkaian pelatihan kecil yang digunakan dalam pemasangan meta learner. Untuk informasi selengkapnya tentang ansambel, lihat Konfigurasi ansambel.

debug_log: str

Diperlukan

File log untuk penulisan informasi debug. Jika tidak ditentukan, 'automl.log' akan digunakan.

training_data: DataFrame atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Data pelatihan yang akan digunakan dalam eksperimen. Data tersebut harus berisi fitur pelatihan dan kolom label (opsional untuk kolom bobot sampel). Jika training_data ditentukan, parameter label_column_name juga harus ditentukan.

training_data diperkenalkan di versi 1.0.81.

validation_data: DataFrame atau Dataset atau DatasetDefinition atau TabularDataset

Diperlukan

Data validasi yang digunakan dalam eksperimen. Data tersebut harus berisi fitur pelatihan dan kolom label (opsional untuk kolom bobot sampel). Jika validation_data ditentukan, parameter training_data dan label_column_name harus ditentukan.

validation_data diperkenalkan di versi 1.0.81. Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

test_data: Dataset atau TabularDataset

Diperlukan

Fitur Pengujian Model menggunakan himpunan data pengujian atau pemisahan data pengujian adalah fitur dalam status Pratinjau dan dapat berubah kapan saja. Data uji yang digunakan untuk uji coba yang secara otomatis akan dimulai setelah pelatihan model selesai. Uji coba akan mendapatkan prediksi menggunakan model terbaik dan menghitung metrik yang diberikan prediksi ini.

Jika parameter ini atau parameter test_size tidak ditentukan, uji coba tidak akan dijalankan secara otomatis setelah pelatihan model selesai. Data uji harus berisi fitur dan kolom label. Jika test_data ditentukan, parameter label_column_name juga harus ditentukan.

test_size: float

Diperlukan

Fitur Pengujian Model menggunakan himpunan data pengujian atau pemisahan data pengujian adalah fitur dalam status Pratinjau dan dapat berubah kapan saja. Bilangan pecahan data pelatihan yang harus ditahan untuk data uji agar uji coba dapat secara otomatis dimulai setelah pelatihan model selesai. Uji coba akan mendapatkan prediksi menggunakan model terbaik dan menghitung metrik yang diberikan prediksi ini.

Bilangan pecahan ini harus antara 0,0 dan 1,0 non-inklusif. Jika test_size ditentukan bersamaan dengan validation_size, data uji akan dipisah dari training_data sebelum data validasi dipisah. Misalnya, jika validation_size=0.1, test_size=0.1, dan data pelatihan asli memiliki 1000 baris, data uji akan memiliki 100 baris, data validasi akan berisi 90 baris, dan data pelatihan akan memiliki 810 baris.

Untuk tugas berbasis regresi, metode pengambilan sampel acak akan digunakan. Untuk tugas klasifikasi, metode pengambilan sampel bertingkat akan digunakan. Prakiraan saat ini tidak mendukung penentuan himpunan data pengujian menggunakan pembagian latihan/pengujian.

Jika parameter ini atau parameter test_data tidak ditentukan, uji coba tidak akan dijalankan secara otomatis setelah pelatihan model selesai.

label_column_name: Union[str, int]

Diperlukan

Nama kolom label. Jika data input berasal dari panda.DataFrame yang tidak memiliki nama kolom, indeks kolom dapat digunakan dan dinyatakan sebagai bilangan bulat.

Parameter ini berlaku untuk parameter training_data, validation_data, dan test_data. label_column_name diperkenalkan di versi 1.0.81.

weight_column_name: Union[str, int]

Diperlukan

Nama kolom bobot sampel. ML otomatis mendukung kolom yang diberatkan sebagai input, menyebabkan baris dalam data dinaikkan atau diturunkan. Jika data input berasal dari panda.DataFrame yang tidak memiliki nama kolom, indeks kolom dapat digunakan dan dinyatakan sebagai bilangan bulat.

Parameter ini berlaku untuk parameter training_data dan validation_data. weight_column_names diperkenalkan di versi 1.0.81.

cv_split_column_names: list(str)

Diperlukan

Daftar nama untuk kolom yang berisi pemisahan validasi silang kustom. Masing-masing kolom pemisahan validasi silang mewakili satu pemisahan validasi silang yang setiap barisnya ditandai 1 untuk pelatihan atau 0 untuk validasi.

Parameter ini berlaku untuk parameter training_data untuk tujuan validasi silang kustom. cv_split_column_names diperkenalkan di versi 1.6.0

Gunakan salah satu dari cv_split_column_names atau cv_splits_indices.

Untuk informasi selengkapnya, lihat Mengonfigurasi pemisahan data dan validasi silang dalam pembelajaran mesin otomatis.

enable_local_managed: bool

Diperlukan

Parameter dinonaktifkan. Eksekusi terkelola lokal saat ini tidak dapat diaktifkan.

enable_dnn: bool

Diperlukan

Penyertaan model berbasis DNN selama pemilihan model. Default dalam init adalah Tidak Ada. Namun, untuk tugas NLP DNN, defaultnya adalah True, dan untuk semua tugas AutoML lainnya, defaultnya adalah False.

as_serializable_dict	Konversi objek menjadi kamus.
get_supported_dataset_languages	Mendapatkan bahasa yang didukung dan kode bahasa yang sesuai dengan ISO 639-3.

Bagikan melalui

AutoMLConfig Kelas

Konstruktor

Parameter

Keterangan

Metode

as_serializable_dict

get_supported_dataset_languages

Parameter

Mengembalikan

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: