Skema YAML pekerjaan prakiraan ML otomatis CLI (v2)
BERLAKU UNTUK: Ekstensi ml Azure CLI v2 (saat ini)
Skema JSON sumber dapat ditemukan di https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json
Catatan
Sintaks YAML yang dirinci dalam dokumen ini didasarkan pada skema JSON untuk versi terbaru ekstensi CLI v2 ML. Sintaks ini dijamin hanya berfungsi dengan versi terbaru ekstensi CLI v2 ML. Anda dapat menemukan skema untuk versi ekstensi yang lebih lama di https://azuremlschemasprod.azureedge.net/.
Sintaks YAML
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
$schema |
string | Lokasi/url untuk memuat skema YAML. Jika pengguna menggunakan ekstensi Azure Pembelajaran Mesin VS Code untuk menulis file YAML, termasuk $schema di bagian atas file memungkinkan pengguna untuk memanggil skema dan penyelesaian sumber daya. |
||
compute |
string | Diperlukan. Nama infrastruktur komputasi AML untuk menjalankan pekerjaan. Komputasi dapat menjadi referensi ke komputer komputasi yang ada di ruang kerja Catatan: pekerjaan dalam alur tidak mendukung 'lokal' sebagai compute . 'lokal' di sini berarti bahwa instans komputasi yang dibuat di ruang kerja studio Azure Pembelajaran Mesin pengguna. |
1. pola [^azureml:<compute_name>] untuk menggunakan komputasi yang ada,2. 'local' untuk menggunakan eksekusi lokal |
'local' |
limits |
object | Mewakili objek kamus yang terdiri dari konfigurasi batas pekerjaan tabular ML Otomatis. Kuncinya adalah nama untuk batas dalam konteks pekerjaan dan nilainya adalah nilai batas. Lihat batasan untuk mengetahui properti objek ini. |
||
name |
string | Nama pekerjaan ML Otomatis yang dikirimkan. Ini harus unik di semua pekerjaan di ruang kerja. Jika tidak ditentukan, Azure Pembelajaran Mesin membuat guid secara otomatis untuk nama tersebut. |
||
description |
string | Penjabaran dari pekerjaan ML Otomatis. | ||
display_name |
string | Nama pekerjaan yang ingin ditampilkan pengguna di antarmuka pengguna studio. Ini bisa tidak unik dalam ruang kerja. Jika dihilangkan, Azure Pembelajaran Mesin membuat pengidentifikasi kata benda kata sifat yang dapat dibaca manusia untuk nama tampilan. | ||
experiment_name |
string | Nama Eksperimen. Eksperimen adalah catatan pekerjaan pelatihan ML Anda di Azure. Eksperimen berisi hasil eksekusi Anda, bersama dengan log, bagan, dan grafik. Setiap rekaman eksekusi pekerjaan diatur di bawah eksperimen yang sesuai di tab "Eksperimen" studio. |
Nama direktori kerja tempat direktori tersebut dibuat | |
environment_variables |
object | Objek kamus variabel lingkungan untuk diatur pada proses di mana perintah sedang dijalankan. | ||
outputs |
object | Mewakili kamus konfigurasi output pekerjaan. Kunci adalah nama untuk output dalam konteks pekerjaan dan nilai adalah konfigurasi output. Lihat output pekerjaan untuk mengetahui properti objek ini. | ||
log_files |
object | Objek kamus yang berisi log eksekusi pekerjaan ML Otomatis | ||
log_verbosity |
string | Tingkat verbositas log untuk menulis ke file log. Nilai yang dapat diterima didefinisikan dalam pustaka pengelogan Python. |
'not_set' , , 'debug' 'info' , 'warning' , , 'error' ,'critical' |
'info' |
type |
const | Diperlukan. Jenis pekerjaan. |
automl |
automl |
task |
const | Diperlukan. Jenis tugas ML Otomatis yang akan dijalankan. |
forecasting |
forecasting |
target_column_name |
string | Diperlukan. Mewakili nama kolom yang akan diprakirakan. Pekerjaan ML Otomatis menimbulkan kesalahan jika tidak ditentukan. |
||
featurization |
object | Objek kamus yang menentukan konfigurasi fiturisasi kustom. Jika tidak dibuat, konfigurasi ML Otomatis menerapkan fiturisasi otomatis. Lihat fiturisasi untuk melihat properti objek ini. | ||
forecasting |
object | Objek kamus yang menentukan pengaturan pekerjaan prakiraan. Lihat prakiraan untuk mengetahui properti objek ini. | ||
n_cross_validations |
string atau bilangan bulat | Jumlah validasi silang yang akan dilakukan selama pemilihan model/alur jika validation_data tidak ditentukan.Jika dan validation_data parameter ini tidak disediakan atau diatur ke None , maka Pekerjaan ML otomatis mengaturnya secara auto default. distributed_featurization Jika diaktifkan dan validation_data tidak ditentukan, maka diatur ke 2 secara default. |
'auto' , [int] |
None |
primary_metric |
string | Metrik yang dioptimalkan ML Otomatis untuk pemilihan model Prakiraan Time Series. Jika allowed_training_algorithms memiliki 'tcn_forecaster' untuk digunakan untuk pelatihan, ML Otomatis hanya mendukung di 'normalized_root_mean_squared_error' dan 'normalized_mean_absolute_error' untuk digunakan sebagai primary_metric. |
"spearman_correlation" , , "normalized_root_mean_squared_error" "r2_score" "normalized_mean_absolute_error" |
"normalized_root_mean_squared_error" |
training |
object | Objek kamus yang menentukan konfigurasi yang digunakan dalam pelatihan model. Periksa pelatihan untuk mengetahui properti objek ini. |
||
training_data |
object | Diperlukan Objek kamus yang berisi konfigurasi MLTable yang menentukan data pelatihan yang akan digunakan sebagai input untuk pelatihan model. Data ini adalah subkumpulan data dan harus terdiri dari fitur/kolom independen dan fitur/kolom target. Pengguna dapat menggunakan MLTable terdaftar di ruang kerja menggunakan format ':' (misalnya Input(mltable='my_mltable:1')) ATAU dapat menggunakan file atau folder lokal sebagai MLTable(misalnya Input(mltable=MLTable(local_path="./data")). Objek ini harus disediakan. Jika fitur target tidak ada dalam file sumber, maka ML Otomatis akan melemparkan kesalahan. Periksa data pelatihan atau validasi atau pengujian untuk mengetahui properti objek ini. |
||
validation_data |
object | Objek kamus yang berisi konfigurasi MLTable yang menentukan data validasi yang akan digunakan dalam eksperimen ML Otomatis untuk validasi silang. Ini harus terdiri dari fitur/kolom independen dan fitur/kolom target jika objek ini disediakan. Sampel dalam data pelatihan dan data validasi tidak dapat tumpang tindih dalam lipatan. Lihat data pelatihan atau validasi atau pengujian untuk mengetahui properti objek ini. Jika objek ini tidak ditentukan, maka ML otomatis menggunakan n_cross_validations untuk memisahkan data validasi dari data pelatihan yang ditentukan dalam training_data objek. |
||
test_data |
object | Objek kamus yang berisi konfigurasi MLTable yang menentukan data pengujian yang akan digunakan dalam uji coba untuk prediksi dalam menggunakan model terbaik dan mengevaluasi model menggunakan metrik yang ditentukan. Ini harus terdiri dari hanya fitur independen yang digunakan dalam data pelatihan (tanpa fitur target) jika objek ini disediakan. Periksa data pelatihan atau validasi atau pengujian untuk mengetahui properti objek ini. Jika tidak disediakan, ML Otomatis menggunakan metode bawaan lainnya untuk menyarankan model terbaik untuk digunakan untuk inferensi. |
batas
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
enable_early_termination |
Boolean | Mewakili apakah akan mengaktifkan penghentian eksperimen jika skor kerugian tidak membaik setelah jumlah perulangan 'x'. Dalam pekerjaan ML Otomatis, tidak ada penghentian awal yang diterapkan pada 20 iterasi pertama. Jendela pemberhentian awal hanya dimulai setelah 20 iterasi pertama. |
true , false |
true |
max_concurrent_trials |
Integer | Jumlah maksimum uji coba (pekerjaan anak) yang akan dijalankan secara paralel. Sangat disarankan untuk mengatur jumlah eksekusi bersamaan ke jumlah simpul dalam kluster (komputasi aml yang ditentukan dalam compute ). |
1 |
|
max_trials |
Integer | Mewakili jumlah maksimum uji coba yang dapat dicoba oleh pekerjaan ML Otomatis untuk menjalankan algoritma pelatihan dengan kombinasi hiperparameter yang berbeda. Nilai defaultnya diatur ke 1000. Jika enable_early_termination didefinisikan, maka jumlah uji coba yang digunakan untuk menjalankan algoritma pelatihan bisa lebih kecil. |
1000 |
|
max_cores_per_trial |
Integer | Mewakili jumlah maksimum inti per yang tersedia untuk digunakan oleh setiap uji coba. Nilai defaultnya diatur ke -1, yang berarti semua inti digunakan dalam proses. | -1 |
|
timeout_minutes |
Integer | Jumlah waktu maksimum dalam menit yang dapat diambil oleh pekerjaan ML Otomatis yang dikirimkan untuk dijalankan. Setelah jumlah waktu yang ditentukan, pekerjaan dihentikan. Batas waktu ini mencakup penyiapan, fiturisasi, eksekusi pelatihan, ansambel, dan kemampuan penjelasan model (jika disediakan) dari semua uji coba. Perhatikan bahwa itu tidak termasuk ensembling dan model explainability berjalan di akhir proses jika pekerjaan gagal diselesaikan dalam disediakan timeout_minutes karena fitur-fitur ini tersedia setelah semua uji coba (pekerjaan anak-anak) selesai. Nilai defaultnya diatur ke 360 menit (6 jam). Untuk menentukan batas waktu kurang dari atau sama dengan 1 jam (60 menit), pengguna harus memastikan ukuran himpunan data tidak lebih besar dari 10.000.000 (kolom waktu baris) atau hasil kesalahan. |
360 |
|
trial_timeout_minutes |
Integer | Jumlah waktu maksimum dalam menit yang dapat dilakukan setiap percobaan (pekerjaan anak) dalam pekerjaan ML Otomatis yang dikirimkan. Setelah jumlah waktu yang ditentukan, pekerjaan anak akan dihentikan. | 30 |
|
exit_score |
float | Skor untuk dicapai oleh eksperimen. Eksperimen berakhir setelah skor yang ditentukan tercapai. Jika tidak ditentukan (tidak ada kriteria), eksperimen berjalan sampai tidak ada kemajuan lebih lanjut yang dibuat pada yang ditentukan primary metric . |
Peramalan
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
time_column_name |
string | Diperlukan Nama kolom dalam himpunan data yang sesuai dengan sumbu waktu setiap rangkaian waktu. Himpunan data input untuk pelatihan, validasi, atau pengujian harus berisi kolom ini jika tugasnya adalah forecasting . Jika tidak disediakan atau diatur ke None , Pekerjaan prakiraan ML otomatis memunculkan kesalahan dan mengakhiri eksperimen. |
||
forecast_horizon |
string atau bilangan bulat | Cakrawala prakiraan maksimum dalam satuan frekuensi rangkaian waktu. Unit-unit ini didasarkan pada interval waktu yang disimpulkan dari data pelatihan Anda, (Misalnya: bulanan, mingguan) yang digunakan prakiraan untuk memprediksi. Jika diatur ke Tidak Ada atau auto , maka nilai defaultnya diatur ke 1, yang berarti 't+1' dari tanda waktu terakhir t dalam data input. |
auto , [int] |
1 |
frequency |
string | Frekuensi di mana pembuatan prakiraan diinginkan, misalnya harian, mingguan, tahunan, dll. Jika tidak ditentukan atau diatur ke Tidak Ada, maka nilai defaultnya disimpulkan dari indeks waktu himpunan data. Pengguna dapat mengatur nilainya lebih besar dari frekuensi yang disimpulkan himpunan data, tetapi tidak kurang dari itu. Misalnya, jika frekuensi himpunan data adalah harian, itu dapat mengambil nilai seperti harian, mingguan, bulanan, tetapi tidak per jam karena per jam kurang dari harian(24 jam). Lihat dokumentasi panda untuk informasi selengkapnya. |
None |
|
time_series_id_column_names |
string atau daftar(string) | Nama kolom dalam data yang akan digunakan untuk mengelompokkan data ke dalam beberapa rangkaian waktu. Jika time_series_id_column_names tidak ditentukan atau diatur ke Tidak Ada, ML Otomatis menggunakan logika deteksi otomatis untuk mendeteksi kolom. | None |
|
feature_lags |
string | Mewakili apakah pengguna ingin menghasilkan jeda secara otomatis untuk fitur numerik yang disediakan. Default diatur ke auto , yang berarti bahwa ML Otomatis menggunakan heuristik berbasis korelasi otomatis untuk secara otomatis memilih urutan jeda dan menghasilkan fitur jeda yang sesuai untuk semua fitur numerik. "None" berarti tidak ada jeda yang dihasilkan untuk fitur numerik apa pun. |
'auto' , None |
None |
country_or_region_for_holidays |
string | Negara atau wilayah yang akan digunakan untuk menghasilkan fitur liburan. Karakter ini harus diwakili dalam kode negara/wilayah dua huruf ISO 3166, misalnya 'US' atau 'GB'. Daftar kode ISO dapat ditemukan di https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. | None |
|
cv_step_size |
string atau bilangan bulat | Jumlah titik antara origin_time satu lipatan CV dan lipatan berikutnya. Misalnya, jika diatur ke 3 untuk data harian, waktu asal untuk setiap lipatan terpisah tiga hari. Jika diatur ke Tidak Ada atau tidak ditentukan, maka diatur ke auto secara default. Jika berjenis bilangan bulat, nilai minimum yang dapat diambil adalah 1 jika tidak, nilai tersebut menimbulkan kesalahan. |
auto , [int] |
auto |
seasonality |
string atau bilangan bulat | Musiman rangkaian waktu sebagai kelipatan bilangan bulat dari frekuensi seri. Jika musiman tidak ditentukan, nilainya diatur ke 'auto' , yang berarti disimpulkan secara otomatis oleh ML Otomatis. Jika parameter ini tidak diatur ke None , ML Otomatis mengasumsikan rangkaian waktu sebagai non-musiman, yang setara dengan mengaturnya sebagai nilai bilangan bulat 1. |
'auto' , [int] |
auto |
short_series_handling_config |
string | Mewakili bagaimana ML Otomatis harus menangani rangkaian waktu singkat jika ditentukan. Dibutuhkan nilai berikut:
|
'auto' , , 'pad' 'drop' ,None |
auto |
target_aggregate_function |
string | Mewakili fungsi agregat yang akan digunakan untuk mengagregasi kolom target dalam rangkaian waktu dan menghasilkan perkiraan pada frekuensi yang ditentukan (ditentukan dalam freq ). Jika parameter ini diatur, tetapi freq parameter tidak diatur, maka kesalahan dimunculkan. Ini dihilangkan atau diatur ke Tidak Ada, maka tidak ada agregasi yang diterapkan. |
'sum' , , 'max' 'min' ,'mean' |
auto |
target_lags |
string atau bilangan bulat atau daftar(bilangan bulat) | Jumlah periode masa lalu/historis yang akan digunakan untuk jeda dari nilai target berdasarkan frekuensi himpunan data. Secara default, parameter ini dinonaktifkan. Pengaturan ini 'auto' memungkinkan sistem untuk menggunakan lag berbasis heuristik otomatis. Properti jeda ini harus digunakan ketika hubungan antara variabel independen dan variabel dependen tidak berkorelasi secara default. Untuk informasi selengkapnya, lihat Fitur tertinggal untuk prakiraan rangkaian waktu di ML Otomatis. |
'auto' , [int] |
None |
target_rolling_window_size |
string atau bilangan bulat | Jumlah pengamatan sebelumnya yang digunakan untuk membuat rata-rata jendela bergulir dari kolom target. Saat memperkirakan, parameter ini mewakili n periode historis yang akan digunakan untuk menghasilkan nilai yang diperkirakan, <= ukuran set pelatihan. Jika dihilangkan, n adalah ukuran set pelatihan penuh. Tentukan parameter ini ketika Anda hanya ingin mempertimbangkan sejumlah riwayat tertentu saat melatih model. | 'auto' Integer None |
None |
use_stl |
string | Komponen yang dihasilkan dengan menerapkan dekomposisi STL pada rangkaian waktu. Jika tidak disediakan atau diatur ke Tidak Ada, tidak ada komponen rangkaian waktu yang dihasilkan. use_stl dapat mengambil dua nilai: 'season' : untuk menghasilkan komponen musiman. 'season_trend' : untuk menghasilkan ML otomatis musiman dan komponen tren. |
'season' , 'seasontrend' |
None |
data pelatihan atau validasi atau pengujian
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
datastore |
string | Nama datastore tempat data diunggah oleh pengguna. | ||
path |
string | Jalur dari tempat data harus dimuat. Ini bisa menjadi file jalur, jalur, folder atau pattern untuk jalur. pattern menentukan pola pencarian untuk memungkinkan globbing(* dan ** ) file dan folder yang berisi data. Jenis URI yang didukung adalah azureml , https , wasbs , abfss , dan adl . Untuk informasi selengkapnya, lihat Sintaks yaml inti untuk memahami cara menggunakan azureml:// format URI. URI lokasi file artefak. Jika URI ini tidak memiliki skema (misalnya, http:, azureml: dll.), maka URI ini dianggap sebagai referensi lokal dan file yang ditujukan untuk diunggah ke penyimpanan blob ruang kerja default saat entitas dibuat. |
||
type |
const | Jenis data input. Untuk menghasilkan model visi komputer, pengguna perlu membawa data gambar berlabel sebagai input untuk pelatihan model dalam bentuk MLTable. | mltable |
mltable |
Pelatihan
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
allowed_training_algorithms |
list(string) | Daftar algoritma Prakiraan Time Series untuk dicoba sebagai model dasar untuk pelatihan model dalam eksperimen. Jika dihilangkan atau diatur ke Tidak Ada, maka semua algoritma yang didukung digunakan selama eksperimen, kecuali algoritma yang ditentukan dalam blocked_training_algorithms . |
'auto_arima' , , 'prophet' , 'naive' , 'average' 'seasonal_naive' , 'seasonal_average' 'exponential_smoothing' , 'arimax' , , 'tcn_forecaster' , 'elastic_net' , 'gradient_boosting' 'decision_tree' , , 'knn' , 'lasso_lars' , 'sgd' , 'random_forest' , 'extreme_random_trees' , , 'light_gbm' 'xg_boost_regressor' |
None |
blocked_training_algorithms |
list(string) | Daftar algoritma Prakiraan Time Series untuk tidak berjalan sebagai model dasar saat pelatihan model dalam eksperimen. Jika dihilangkan atau diatur ke Tidak Ada, maka semua algoritma yang didukung digunakan selama pelatihan model. | 'auto_arima' , , 'prophet' , 'seasonal_naive' 'naive' , 'average' , 'seasonal_average' , 'exponential_smoothing' 'arimax' , ,'tcn_forecaster' , 'elastic_net' , 'gradient_boosting' , 'decision_tree' , 'knn' , , 'lasso_lars' , 'sgd' , 'extreme_random_trees' 'random_forest' , , 'light_gbm' 'xg_boost_regressor' |
None |
enable_dnn_training |
Boolean | Bendera untuk mengaktifkan atau menonaktifkan penyertaan model berbasis DNN untuk dicoba selama pemilihan model. | True , False |
False |
enable_model_explainability |
Boolean | Mewakili bendera untuk mengaktifkan kemampuan penjelasan model seperti kepentingan fitur, dari model terbaik yang dievaluasi oleh sistem ML Otomatis. | True , False |
True |
enable_vote_ensemble |
Boolean | Bendera untuk mengaktifkan atau menonaktifkan ansambel beberapa model dasar menggunakan algoritma Voting. Untuk informasi selengkapnya tentang ansambel, lihat Menyiapkan Pelatihan otomatis. | true , false |
true |
enable_stack_ensemble |
Boolean | Bendera untuk mengaktifkan atau menonaktifkan ansambel dari beberapa model dasar menggunakan algoritma Tumpukan. Dalam tugas prakiraan, bendera ini dimatikan secara default, untuk menghindari risiko overfitting karena set pelatihan kecil yang digunakan agar pas dengan meta learner. Untuk informasi selengkapnya tentang ansambel, lihat Menyiapkan Pelatihan otomatis. | true , false |
false |
featurization
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
mode |
string | Mode fiturisasi yang akan digunakan oleh pekerjaan ML Otomatis. Mengaturnya ke: 'auto' menunjukkan apakah langkah fiturisasi harus dilakukan secara otomatis'off' menunjukkan tidak ada fiturisasi<'custom' yang menunjukkan apakah fiturisasi yang disesuaikan harus digunakan. Catatan: Jika data inputnya merupakan data sparse, featurization tidak dapat diaktifkan. |
'auto' , , 'off' 'custom' |
None |
blocked_transformers |
list(string) | Daftar nama transformator yang akan diblokir selama langkah fiturisasi oleh ML Otomatis, jika fiturisasi mode diatur ke 'kustom'. |
'text_target_encoder' , , 'one_hot_encoder' 'cat_target_encoder' , 'tf_idf' , 'wo_e_target_encoder' , 'label_encoder' , 'word_embedding' , 'naive_bayes' , , 'count_vectorizer' ,'hash_one_hot_encoder' |
None |
column_name_and_types |
object | Objek kamus yang terdiri dari nama kolom sebagai kunci dict dan jenis fitur yang digunakan untuk memperbarui tujuan kolom sebagai nilai terkait, jika fiturisasi mode diatur ke 'kustom'. |
||
transformer_params |
object | Objek kamus berlapis yang terdiri dari nama transformator sebagai kunci dan parameter kustomisasi yang sesuai pada kolom himpunan data untuk fiturisasi, jika fiturisasi mode diatur ke 'kustom'.Prakiraan hanya mendukung imputer transformator untuk kustomisasi.Lihat column_transformers untuk mengetahui cara membuat parameter kustomisasi. |
None |
column_transformers
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
fields |
list(string) | Daftar nama kolom yang disediakan transformer_params harus diterapkan. |
||
parameters |
object | Objek kamus yang terdiri dari 'strategi' sebagai kunci dan nilai sebagai strategi imputasi. Detail selengkapnya tentang bagaimana hal itu dapat disediakan, disediakan dalam contoh di sini. |
Output pekerjaan
Tombol | Tipe | Deskripsi | Nilai yang diizinkan | Nilai default |
---|---|---|---|---|
type |
string | Jenis output pekerjaan. Untuk jenis default uri_folder , output sesuai dengan folder. |
uri_folder , , mlflow_model custom_model |
uri_folder |
mode |
string | Mode cara file output dikirimkan ke penyimpanan tujuan. Untuk mode pemasangan baca-tulis (rw_mount ) direktori output adalah direktori yang dipasang. Untuk mode pengunggahan, file yang ditulis diunggah di akhir pekerjaan. |
rw_mount , upload |
rw_mount |
Cara menjalankan pekerjaan prakiraan melalui CLI
az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]