Rozhraní příkazového řádku (v2) Schéma YAML úlohy automatizovaného prognózování ML

Článek
09/01/2024

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

Zdrojové schéma JSON najdete na adrese https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json

Poznámka:

Syntaxe YAML podrobná v tomto dokumentu je založená na schématu JSON pro nejnovější verzi rozšíření ML CLI v2. Tato syntaxe je zaručena pouze pro práci s nejnovější verzí rozšíření ML CLI v2. Schémata pro starší verze rozšíření najdete na adrese https://azuremlschemasprod.azureedge.net/.

Syntaxe YAML

Klíč	Typ	Popis	Povolené hodnoty	Default value
`$schema`	string	Umístění/adresa URL pro načtení schématu YAML. Pokud uživatel používá rozšíření Azure Machine Learning VS Code k vytvoření souboru YAML, včetně `$schema` v horní části souboru, umožní uživateli vyvolat schéma a dokončování prostředků.
`compute`	string	Povinný: Název výpočetní infrastruktury AML, na které se má úloha spouštět. Výpočetní prostředky můžou být odkazem na existující výpočetní počítač v pracovním prostoru. Poznámka: Úlohy v kanálu nepodporují "local" jako `compute`. Místní znamená, že výpočetní instance vytvořená v uživatelském studio Azure Machine Learning pracovním prostoru.	1. vzor `[^azureml:<compute_name>]` pro použití stávajících výpočetních prostředků, 2.`'local'` použití místního provádění	`'local'`
`limits`	objekt	Představuje objekt slovníku skládající se z konfigurací omezení tabulkové úlohy automatizovaného strojového učení. Klíč je název limitu v kontextu úlohy a hodnota je limitní hodnota. Podívejte se na omezení pro zjištění vlastností tohoto objektu.
`name`	string	Název odeslané úlohy automatizovaného strojového učení. Musí být jedinečný pro všechny úlohy v pracovním prostoru. Pokud není zadaný, Azure Machine Learning automaticky vygeneruje identifikátor GUID pro název.
`description`	string	Popis úlohy automatizovaného strojového učení.
`display_name`	string	Název úlohy, kterou chce uživatel zobrazit v uživatelském rozhraní studia. V rámci pracovního prostoru může být ne jedinečné. Pokud je vynechán, Azure Machine Learning automaticky vygeneruje identifikátor jmenného jména čitelného člověka pro zobrazovaný název.
`experiment_name`	string	Název experimentu. Experimenty jsou záznamy trénovacích úloh ML v Azure. Experimenty obsahují výsledky spuštění spolu s protokoly, grafy a grafy. Záznam spuštění každé úlohy je uspořádaný pod odpovídajícím experimentem na kartě Experimenty v sadě Studio.		Název pracovního adresáře, ve kterém byl vytvořen
`environment_variables`	objekt	Objekt slovníku proměnných prostředí, který se nastaví v procesu, ve kterém se příkaz spouští.
`outputs`	objekt	Představuje slovník výstupních konfigurací úlohy. Klíč je název výstupu v kontextu úlohy a hodnota je výstupní konfigurace. Zobrazení výstupu úlohy pro zjištění vlastností tohoto objektu
`log_files`	objekt	Objekt slovníku obsahující protokoly spuštění úlohy automatizovaného strojového učení
`log_verbosity`	string	Úroveň podrobností protokolu pro zápis do souboru protokolu. Přijatelné hodnoty jsou definovány v knihovně protokolování Pythonu.	`'not_set'`, `'debug'`, `'info'`, `'warning'`, , `'error''critical'`	`'info'`
`type`	const	Povinný: Typ úlohy.	`automl`	`automl`
`task`	const	Povinný: Typ úlohy automatizovaného strojového učení, který se má provést.	`forecasting`	`forecasting`
`target_column_name`	string	Povinný: Představuje název sloupce, který má být prognózován. Úloha automatizovaného strojového učení vyvolá chybu, pokud není zadána.
`featurization`	objekt	Objekt slovníku definující konfiguraci vlastní featurizace. V případě, že se nevytvořil, použije konfigurace automatizovaného strojového učení automatickou funkciaturace. Viz featurizace k zobrazení vlastností tohoto objektu.
`forecasting`	objekt	Objekt slovníku definující nastavení prognózovací úlohy. Podívejte se na prognózování a zjistěte vlastnosti tohoto objektu.
`n_cross_validations`	řetězec nebo celé číslo	Počet křížových ověření, která se mají provést při výběru modelu nebo kanálu, pokud `validation_data` není zadán. V případě, že `validation_data` ani tento parametr není zadaný nebo nastavený na `None`, pak je úloha automatizovaného strojového učení nastavil `auto` ve výchozím nastavení. V případě `distributed_featurization` , že je povolená a `validation_data` není zadána, je ve výchozím nastavení nastavená na hodnotu 2.	`'auto'`, [int]	`None`
`primary_metric`	string	Metrika, která automatizované strojové učení optimalizuje pro výběr modelu prognózování časových řad. Pokud `allowed_training_algorithms` má k trénování použít tcn_forecaster, automatizované strojové učení podporuje pouze v normalized_root_mean_squared_error a normalized_mean_absolute_error, které se mají použít jako primary_metric.	`"spearman_correlation"`, , `"normalized_root_mean_squared_error""r2_score"` `"normalized_mean_absolute_error"`	`"normalized_root_mean_squared_error"`
`training`	objekt	Objekt slovníku definující konfiguraci, která se používá při trénování modelu. Zkontrolujte trénování a zjistěte vlastnosti tohoto objektu.
`training_data`	objekt	Povinní účastníci Objekt slovníku obsahující konfiguraci MLTable definující trénovací data, která se mají použít jako vstup pro trénování modelu. Tato data jsou podmnožinou dat a měla by se skládat z nezávislých funkcí/sloupců a cílové funkce/sloupce. Uživatel může použít zaregistrovanou tabulku MLTable v pracovním prostoru ve formátu :(např. Input(mltable='my_mltable:1')) NEBO může jako tabulku MLTable použít místní soubor nebo složku(např. Input(mltable=MLTable(local_path="./data")). Tento objekt musí být zadaný. Pokud cílová funkce není ve zdrojovém souboru, automatizované strojové učení vyvolá chybu. Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu.
`validation_data`	objekt	Objekt slovníku obsahující konfiguraci MLTable definující ověřovací data, která se mají použít v rámci experimentu automatizovaného strojového učení pro křížové ověření. Pokud je tento objekt k dispozici, měl by se skládat z nezávislých funkcí/sloupců a cílových funkcí/sloupce. Ukázky v trénovacích datech a ověřovacích datech se nemůžou překrývat ve složených datech. Pokud chcete zjistit vlastnosti tohoto objektu, podívejte se na trénovací nebo ověřovací nebo testovací data . V případě, že tento objekt není definován, použije automatizované strojové učení `n_cross_validations` k rozdělení ověřovacích dat z trénovacích dat definovaných v objektu `training_data` .
`test_data`	objekt	Objekt slovníku obsahující konfiguraci MLTable definující testovací data, která se mají použít při testovacím běhu pro předpovědi při použití nejlepšího modelu, a vyhodnocuje model pomocí definovaných metrik. Pokud je tento objekt k dispozici, měl by se skládat pouze z nezávislých funkcí používaných v trénovacích datech (bez cílové funkce). Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu. Pokud není k dispozici, automatizované strojové učení používá jiné předdefinované metody k navržení nejlepšího modelu pro odvozování.

hranice

Klíč	Typ	Popis	Povolené hodnoty	Default value
`enable_early_termination`	boolean	Představuje, jestli se má povolit ukončení experimentu, pokud se skóre ztráty nezlepší po počtu iterací x. V úloze automatizovaného strojového učení se na prvních 20 iterací nepoužije žádné předčasné zastavení. Počáteční zastavování se spustí až po prvních 20 iteracích.	`true`, `false`	`true`
`max_concurrent_trials`	integer	Maximální počet pokusů (podřízených úloh), které by se spouštěly paralelně. Důrazně doporučujeme nastavit počet souběžných spuštění na počet uzlů v clusteru (aml compute definovaný v `compute`).		`1`
`max_trials`	integer	Představuje maximální počet pokusů, které může úloha automatizovaného strojového učení zkusit spustit trénovací algoritmus s různými kombinacemi hyperparametrů. Výchozí hodnota je nastavená na 1 000. Pokud `enable_early_termination` je definováno, může být počet pokusů použitých ke spuštění trénovacích algoritmů menší.		`1000`
`max_cores_per_trial`	integer	Představuje maximální počet jader podle toho, které jsou k dispozici pro každou zkušební verzi. Výchozí hodnota je nastavená na -1, což znamená, že se v procesu používají všechna jádra.		`-1`
`timeout_minutes`	integer	Maximální doba v minutách, po kterou může spustit odeslaná úloha automatizovaného strojového učení. Po uplynutí zadané doby se úloha ukončí. Tento časový limit zahrnuje nastavení, featurizaci, trénovací běhy, promýšlání a vysvětlení modelu (pokud je k dispozici) všech pokusů. Všimněte si, že nezahrnuje překládanou a vysvětlitelnost modelu se spustí na konci procesu, pokud se úloha nedokončí, `timeout_minutes` protože tyto funkce jsou k dispozici po dokončení všech zkušebních verzí (podřízených úloh). Výchozí hodnota je nastavená na 360 minut (6 hodin). Pokud chcete zadat časový limit menší než nebo rovnou 1 hodině (60 minut), měl by se uživatel ujistit, že velikost datové sady není větší než 10 000 000 (řádek krát sloupec) nebo chybové výsledky.		`360`
`trial_timeout_minutes`	integer	Maximální doba v minutách, po kterou může každá zkušební verze (podřízená úloha) v odeslané úloze automatizovaného strojového učení běžet. Po uplynutí zadané doby se podřízená úloha ukončí.		`30`
`exit_score`	float (číslo s plovoucí řádovou čárkou)	Skóre, které se má dosáhnout experimentem. Experiment se ukončí po dosažení zadaného skóre. Pokud není zadána (žádná kritéria), experiment se spustí, dokud nedojde k žádnému dalšímu postupu definovaného `primary metric`.

prognostika

Klíč	Typ	Popis	Povolené hodnoty	Default value
`time_column_name`	řetězec	Povinní účastníci Název sloupce v datové sadě, který odpovídá časové ose jednotlivých časových řad. Vstupní datová sada pro trénování, ověřování nebo testování musí obsahovat tento sloupec, pokud je `forecasting`úkol . Pokud není k dispozici nebo není nastavena `None`, úloha prognózování automatizovaného strojového učení vyvolá chybu a experiment ukončí.
`forecast_horizon`	řetězec nebo celé číslo	Maximální horizont prognózy v jednotkách frekvence časových řad. Tyto jednotky vycházejí z odvozeného časového intervalu trénovacích dat (např. měsíčně, týdně), který prognóza používá k predikci. Pokud je nastavena na None nebo `auto`, jeho výchozí hodnota je nastavena na 1, což znamená "t+1" z posledního časového razítka t ve vstupních datech.	`auto`, [int]	0
`frequency`	string	Frekvence, s jakou je generování prognózy žádoucí, například denně, týdně, ročně atd. Pokud není zadána nebo nastavena na hodnotu None, její výchozí hodnota se odvodí z indexu času datové sady. Uživatel může nastavit jeho hodnotu větší než odvozená frekvence datové sady, ale ne menší než její hodnota. Pokud je například frekvence datové sady denně, může trvat hodnoty jako denní, týdenní, měsíční, ale ne každou hodinu, protože hodina je menší než denně(24 hodin). Další informace najdete v dokumentaci k knihovně pandas.		`None`
`time_series_id_column_names`	řetězec nebo list(řetězce)	Názvy sloupců v datech, které se mají použít k seskupení dat do více časových řad. Pokud time_series_id_column_names není definována nebo nastavena na Hodnotu Žádné, automatizované strojové učení používá k detekci sloupců logiku automatického zjišťování.		`None`
`feature_lags`	string	Představuje, jestli chce uživatel automaticky generovat prodlevy pro poskytnuté číselné funkce. Výchozí hodnota je nastavená na `auto`, což znamená, že automatizované strojové učení používá heuristiku založenou na automatických opravách k automatickému výběru objednávek prodlevy a generování odpovídajících lag funkcí pro všechny číselné funkce. "Žádné" znamená, že pro žádné číselné funkce se negenerují žádné prodlevy.	`'auto'`, `None`	`None`
`country_or_region_for_holidays`	string	Země nebo oblast, které se mají použít k vygenerování funkcí svátků. Tyto znaky by měly být reprezentovány ve dvouznakovém kódu země/oblasti ISO 3166, například v USA nebo GB. Seznam kódů ISO naleznete na adrese https://wikipedia.org/wiki/List_of_ISO_3166_country_codes.	`None`
`cv_step_size`	řetězec nebo celé číslo	Počet období mezi origin_time jednoho cv přeložení a dalším přeložením. Pokud je například pro denní data nastavená hodnota 3, čas vzniku každého přeložení je od sebe tři dny. Pokud je nastavená na hodnotu Žádné nebo není zadána, je ve výchozím nastavení nastavená na `auto` hodnotu Žádný. Pokud se jedná o celočíselné typy, minimální hodnota, kterou může trvat, je 1, jinak vyvolá chybu.	`auto`, [int]	`auto`
`seasonality`	řetězec nebo celé číslo	Sezónnost časových řad jako celočíselná násobek frekvence řady. Pokud není zadána sezónnost, jeho hodnota je nastavena na `'auto'`, což znamená, že je odvozena automaticky automatizovaným ml. Pokud tento parametr není nastaven na `None`hodnotu , automatizované strojové učení předpokládá časové řady jako neschůdné, což odpovídá nastavení jako celočíselné hodnoty 1.	`'auto'`, [int]	`auto`
`short_series_handling_config`	string	Představuje způsob, jakým by automatizované strojové učení mělo zpracovávat krátké časové řady, pokud je zadáno. Přijímá následující hodnoty: `'auto'` : krátká řada je vycpaná, pokud neexistují dlouhé řady, jinak se krátká řada zahodí. `'pad'`: Všechny krátké řady jsou vycpané nulami. `'drop'`: Všechny krátké řady jsou vyřazeny. `None`: Krátká řada není upravena.	`'auto'`, `'pad'`, , `'drop'None`	`auto`
`target_aggregate_function`	string	Představuje agregační funkci, která se má použít k agregaci cílového sloupce v časových řadách a generování prognóz zadanou frekvencí (definovanou v `freq`). Pokud je tento parametr nastavený, ale `freq` parametr není nastavený, dojde k chybě. Vynechá se nebo nastaví na Hodnotu Žádné, pak se nepoužije žádná agregace.	`'sum'`, `'max'`, , `'min''mean'`	`auto`
`target_lags`	řetězec nebo celé číslo nebo list(celé číslo)	Počet minulých/historických období, která se mají použít k prodlevě od cílových hodnot na základě frekvence datové sady. Ve výchozím nastavení je tento parametr vypnutý. Nastavení `'auto'` umožňuje systému používat automatickou heuristické prodlevu. Tato vlastnost prodlevy by se měla použít, když vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení nekoeluje. Další informace najdete v tématu Opožděné funkce pro prognózování časových řad v automatizovaném strojovém učení.	`'auto'`, [int]	`None`
`target_rolling_window_size`	řetězec nebo celé číslo	Počet minulých pozorování, která se mají použít k vytvoření průběžného intervalu cílového sloupce. Při prognózování představuje tento parametr n historických období, která se mají použít ke generování prognózovaných hodnot, <= velikost trénovací sady. Pokud tuto hodnotu vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu pouze určitou část historie.	`'auto'`celé číslo `None`	`None`
`use_stl`	string	Komponenty, které se mají generovat použitím rozkladu STL v časových řadách. Pokud není k dispozici nebo není nastavena žádná součást časové řady, nevygeneruje se žádná součást časové řady. use_stl může mít dvě hodnoty: `'season'` : generovat součást sezóny. `'season_trend'` : pro generování komponent automatizovaného strojového učení i trendu.	`'season'`, `'seasontrend'`	`None`

trénování nebo ověřování nebo testování dat

Klíč	Typ	Popis	Povolené hodnoty	Default value
`datastore`	string	Název úložiště dat, kde se data nahrají uživatelem.
`path`	string	Cesta, ze které se mají načíst data. Může to být `file` cesta, `folder` cesta nebo `pattern` cesty. `pattern` určuje vzor hledání, který umožňuje použití globbingu(`` a `*`) souborů a složek obsahujících data. Podporované typy identifikátorů URI jsou `azureml`, , `httpswasbs`, `abfss`, a `adl`. Další informace najdete v tématu Syntaxe Core yaml, abyste pochopili, jak používat formát identifikátoru `azureml://` URI. Identifikátor URI umístění souboru artefaktu. Pokud tento identifikátor URI nemá schéma (například http:, azureml atd.), považuje se za místní odkaz a soubor, na který odkazuje, se nahraje do výchozího úložiště objektů blob pracovního prostoru při vytváření entity.
`type`	const	Typ vstupních dat. Aby uživatel mohl generovat modely počítačového zpracování obrazu, musí jako vstup pro trénování modelu použít označení data obrázků ve formě tabulky MLTable.	`mltable`	`mltable`

školení

Klíč	Typ	Popis	Povolené hodnoty	Default value
`allowed_training_algorithms`	list(řetězec)	Seznam algoritmů pro prognózování časových řad, které se mají vyzkoušet jako základní model pro trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu None, všechny podporované algoritmy se použijí během experimentu s výjimkou algoritmů zadaných v `blocked_training_algorithms`.	`'auto_arima'`, `'prophet'`, ,`'seasonal_naive''naive'`, `'average'`, `'seasonal_average'`, `'exponential_smoothing'`, `'arimax'`, `'lasso_lars''light_gbm''decision_tree''random_forest''sgd''knn''extreme_random_trees''tcn_forecaster''elastic_net''gradient_boosting''xg_boost_regressor'`	`None`
`blocked_training_algorithms`	list(řetězec)	Seznam algoritmů pro prognózování časových řad, které se nespustí jako základní model při trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu Žádné, všechny podporované algoritmy se použijí během trénování modelu.	`'auto_arima'`, `'prophet'`, , `'seasonal_naive''naive''seasonal_average''average'`, , `'light_gbm''exponential_smoothing''arimax''tcn_forecaster''elastic_net''gradient_boosting''decision_tree''knn''lasso_lars''sgd''random_forest''extreme_random_trees''xg_boost_regressor'`	`None`
`enable_dnn_training`	boolean	Příznak pro zapnutí nebo vypnutí zahrnutí modelů založených na DNN, které se mají vyzkoušet během výběru modelu.	`True`, `False`	`False`
`enable_model_explainability`	boolean	Představuje příznak pro zapnutí vysvětlitelnosti modelu, jako je důležitost funkce, nejlepšího modelu vyhodnoceného systémem automatizovaného strojového učení.	`True`, `False`	`True`
`enable_vote_ensemble`	boolean	Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí hlasovacího algoritmu. Další informace o souborech naleznete v tématu Nastavení automatického trénování.	`true`, `false`	`true`
`enable_stack_ensemble`	boolean	Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí algoritmu stackingu U úloh prognózování je tento příznak ve výchozím nastavení vypnutý, aby se zabránilo rizikům přeurčení kvůli malé trénovací sadě používané při přizpůsobení metaučujícího. Další informace o souborech naleznete v tématu Nastavení automatického trénování.	`true`, `false`	`false`

featurizace

Klíč	Typ	Popis	Povolené hodnoty	Default value
`mode`	string	Režim featurizace, který má být používán úlohou automatizovaného strojového učení. Nastavení na: `'auto'` označuje, jestli se má krok featurizace provést automaticky. `'off'` indikuje, zda se má použít vlastní featurizace<`'custom'` . Poznámka: Pokud jsou vstupní data zhuštěná, není možné zapnout featurizaci.	`'auto'`, , `'off''custom'`	`None`
`blocked_transformers`	list(řetězec)	Seznam názvů transformátorů, které mají být blokovány během kroku featurizace automatizovaným ML, pokud je featurizace `mode` nastavena na "vlastní".	`'text_target_encoder'`, `'one_hot_encoder'`, , `'cat_target_encoder'`, `'wo_e_target_encoder''tf_idf'`, `'label_encoder''word_embedding''naive_bayes'`, , `'count_vectorizer''hash_one_hot_encoder'`	`None`
`column_name_and_types`	objekt	Objekt slovníku skládající se z názvů sloupců jako klíče diktování a typů funkcí používaných k aktualizaci účelu sloupce jako přidružené hodnoty, pokud je featurizace `mode` nastavená na "vlastní".
`transformer_params`	objekt	Vnořený objekt slovníku, který se skládá z názvu transformátoru jako klíče a odpovídajících parametrů přizpůsobení sloupců datové sady pro featurizaci, pokud je featurizace `mode` nastavena na "vlastní". Prognózování podporuje `imputer` pouze transformátor pro přizpůsobení. Projděte si column_transformers a zjistěte, jak vytvořit parametry přizpůsobení.		`None`

column_transformers

Klíč	Typ	Popis	Povolené hodnoty	Default value
`fields`	list(řetězec)	Seznam názvů sloupců, u kterých je uvedeno `transformer_params` , by se měl použít.
`parameters`	objekt	Objekt slovníku, který se skládá ze strategie jako klíč a hodnota jako imputační strategie. Další podrobnosti o tom, jak ji můžete poskytnout, najdete v příkladech zde.

Výstupy úloh

Klíč	Typ	Popis	Povolené hodnoty	Default value
`type`	string	Typ výstupu úlohy. Pro výchozí `uri_folder` typ výstup odpovídá složce.	`uri_folder`, , `mlflow_modelcustom_model`	`uri_folder`
`mode`	string	Režim doručení výstupních souborů do cílového úložiště Pro režim připojení pro čtení i zápis (`rw_mount`) je výstupní adresář připojeným adresářem. V režimu nahrávání se soubory zapsané na konci úlohy nahrají.	`rw_mount`, `upload`	`rw_mount`

Spuštění úlohy prognózování pomocí rozhraní příkazového řádku

az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]

Rychlé odkazy pro další referenci:

Instalace a použití rozhraní příkazového řádku (v2)
Spuštění úlohy automatizovaného strojového učení prostřednictvím rozhraní příkazového řádku
Postup automatického trénování prognóz
Příklady prognózování rozhraní příkazového řádku:
Orange Juice Sale Forecasting
Prognózování poptávky po energii
Prognózování poptávky na kolech
Předpověď denních aktivních uživatelů GitHubu

Sdílet prostřednictvím