Sdílet prostřednictvím


Rozhraní příkazového řádku (v2) Schéma YAML úlohy automatizovaného prognózování ML

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

Zdrojové schéma JSON najdete na adrese https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json

Poznámka:

Syntaxe YAML podrobná v tomto dokumentu je založená na schématu JSON pro nejnovější verzi rozšíření ML CLI v2. Tato syntaxe je zaručena pouze pro práci s nejnovější verzí rozšíření ML CLI v2. Schémata pro starší verze rozšíření najdete na adrese https://azuremlschemasprod.azureedge.net/.

Syntaxe YAML

Klíč Typ Popis Povolené hodnoty Default value
$schema string Umístění/adresa URL pro načtení schématu YAML.
Pokud uživatel používá rozšíření Azure Machine Learning VS Code k vytvoření souboru YAML, včetně $schema v horní části souboru, umožní uživateli vyvolat schéma a dokončování prostředků.
compute string Povinný:
Název výpočetní infrastruktury AML, na které se má úloha spouštět.
Výpočetní prostředky můžou být odkazem na existující výpočetní počítač v pracovním prostoru.
Poznámka: Úlohy v kanálu nepodporují "local" jako compute. Místní znamená, že výpočetní instance vytvořená v uživatelském studio Azure Machine Learning pracovním prostoru.
1. vzor [^azureml:<compute_name>] pro použití stávajících výpočetních prostředků,
2.'local' použití místního provádění
'local'
limits objekt Představuje objekt slovníku skládající se z konfigurací omezení tabulkové úlohy automatizovaného strojového učení.
Klíč je název limitu v kontextu úlohy a hodnota je limitní hodnota. Podívejte se na omezení pro zjištění vlastností tohoto objektu.
name string Název odeslané úlohy automatizovaného strojového učení.
Musí být jedinečný pro všechny úlohy v pracovním prostoru. Pokud není zadaný, Azure Machine Learning automaticky vygeneruje identifikátor GUID pro název.
description string Popis úlohy automatizovaného strojového učení.
display_name string Název úlohy, kterou chce uživatel zobrazit v uživatelském rozhraní studia. V rámci pracovního prostoru může být ne jedinečné. Pokud je vynechán, Azure Machine Learning automaticky vygeneruje identifikátor jmenného jména čitelného člověka pro zobrazovaný název.
experiment_name string Název experimentu.
Experimenty jsou záznamy trénovacích úloh ML v Azure. Experimenty obsahují výsledky spuštění spolu s protokoly, grafy a grafy. Záznam spuštění každé úlohy je uspořádaný pod odpovídajícím experimentem na kartě Experimenty v sadě Studio.
Název pracovního adresáře, ve kterém byl vytvořen
environment_variables objekt Objekt slovníku proměnných prostředí, který se nastaví v procesu, ve kterém se příkaz spouští.
outputs objekt Představuje slovník výstupních konfigurací úlohy. Klíč je název výstupu v kontextu úlohy a hodnota je výstupní konfigurace. Zobrazení výstupu úlohy pro zjištění vlastností tohoto objektu
log_files objekt Objekt slovníku obsahující protokoly spuštění úlohy automatizovaného strojového učení
log_verbosity string Úroveň podrobností protokolu pro zápis do souboru protokolu.
Přijatelné hodnoty jsou definovány v knihovně protokolování Pythonu.
'not_set', 'debug', 'info', 'warning', , 'error''critical' 'info'
type const Povinný:
Typ úlohy.
automl automl
task const Povinný:
Typ úlohy automatizovaného strojového učení, který se má provést.
forecasting forecasting
target_column_name string Povinný:
Představuje název sloupce, který má být prognózován. Úloha automatizovaného strojového učení vyvolá chybu, pokud není zadána.
featurization objekt Objekt slovníku definující konfiguraci vlastní featurizace. V případě, že se nevytvořil, použije konfigurace automatizovaného strojového učení automatickou funkciaturace. Viz featurizace k zobrazení vlastností tohoto objektu.
forecasting objekt Objekt slovníku definující nastavení prognózovací úlohy. Podívejte se na prognózování a zjistěte vlastnosti tohoto objektu.
n_cross_validations řetězec nebo celé číslo Počet křížových ověření, která se mají provést při výběru modelu nebo kanálu, pokud validation_data není zadán.
V případě, že validation_data ani tento parametr není zadaný nebo nastavený na None, pak je úloha automatizovaného strojového učení nastavil auto ve výchozím nastavení. V případě distributed_featurization , že je povolená a validation_data není zadána, je ve výchozím nastavení nastavená na hodnotu 2.
'auto', [int] None
primary_metric string Metrika, která automatizované strojové učení optimalizuje pro výběr modelu prognózování časových řad.
Pokud allowed_training_algorithms má k trénování použít tcn_forecaster, automatizované strojové učení podporuje pouze v normalized_root_mean_squared_error a normalized_mean_absolute_error, které se mají použít jako primary_metric.
"spearman_correlation", , "normalized_root_mean_squared_error""r2_score" "normalized_mean_absolute_error" "normalized_root_mean_squared_error"
training objekt Objekt slovníku definující konfiguraci, která se používá při trénování modelu.
Zkontrolujte trénování a zjistěte vlastnosti tohoto objektu.
training_data objekt Povinní účastníci
Objekt slovníku obsahující konfiguraci MLTable definující trénovací data, která se mají použít jako vstup pro trénování modelu. Tato data jsou podmnožinou dat a měla by se skládat z nezávislých funkcí/sloupců a cílové funkce/sloupce. Uživatel může použít zaregistrovanou tabulku MLTable v pracovním prostoru ve formátu :(např. Input(mltable='my_mltable:1')) NEBO může jako tabulku MLTable použít místní soubor nebo složku(např. Input(mltable=MLTable(local_path="./data")). Tento objekt musí být zadaný. Pokud cílová funkce není ve zdrojovém souboru, automatizované strojové učení vyvolá chybu. Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu.
validation_data objekt Objekt slovníku obsahující konfiguraci MLTable definující ověřovací data, která se mají použít v rámci experimentu automatizovaného strojového učení pro křížové ověření. Pokud je tento objekt k dispozici, měl by se skládat z nezávislých funkcí/sloupců a cílových funkcí/sloupce. Ukázky v trénovacích datech a ověřovacích datech se nemůžou překrývat ve složených datech.
Pokud chcete zjistit vlastnosti tohoto objektu, podívejte se na trénovací nebo ověřovací nebo testovací data . V případě, že tento objekt není definován, použije automatizované strojové učení n_cross_validations k rozdělení ověřovacích dat z trénovacích dat definovaných v objektu training_data .
test_data objekt Objekt slovníku obsahující konfiguraci MLTable definující testovací data, která se mají použít při testovacím běhu pro předpovědi při použití nejlepšího modelu, a vyhodnocuje model pomocí definovaných metrik. Pokud je tento objekt k dispozici, měl by se skládat pouze z nezávislých funkcí používaných v trénovacích datech (bez cílové funkce).
Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu. Pokud není k dispozici, automatizované strojové učení používá jiné předdefinované metody k navržení nejlepšího modelu pro odvozování.

hranice

Klíč Typ Popis Povolené hodnoty Default value
enable_early_termination boolean Představuje, jestli se má povolit ukončení experimentu, pokud se skóre ztráty nezlepší po počtu iterací x.
V úloze automatizovaného strojového učení se na prvních 20 iterací nepoužije žádné předčasné zastavení. Počáteční zastavování se spustí až po prvních 20 iteracích.
true, false true
max_concurrent_trials integer Maximální počet pokusů (podřízených úloh), které by se spouštěly paralelně. Důrazně doporučujeme nastavit počet souběžných spuštění na počet uzlů v clusteru (aml compute definovaný v compute). 1
max_trials integer Představuje maximální počet pokusů, které může úloha automatizovaného strojového učení zkusit spustit trénovací algoritmus s různými kombinacemi hyperparametrů. Výchozí hodnota je nastavená na 1 000. Pokud enable_early_termination je definováno, může být počet pokusů použitých ke spuštění trénovacích algoritmů menší. 1000
max_cores_per_trial integer Představuje maximální počet jader podle toho, které jsou k dispozici pro každou zkušební verzi. Výchozí hodnota je nastavená na -1, což znamená, že se v procesu používají všechna jádra. -1
timeout_minutes integer Maximální doba v minutách, po kterou může spustit odeslaná úloha automatizovaného strojového učení. Po uplynutí zadané doby se úloha ukončí. Tento časový limit zahrnuje nastavení, featurizaci, trénovací běhy, promýšlání a vysvětlení modelu (pokud je k dispozici) všech pokusů.
Všimněte si, že nezahrnuje překládanou a vysvětlitelnost modelu se spustí na konci procesu, pokud se úloha nedokončí, timeout_minutes protože tyto funkce jsou k dispozici po dokončení všech zkušebních verzí (podřízených úloh).
Výchozí hodnota je nastavená na 360 minut (6 hodin). Pokud chcete zadat časový limit menší než nebo rovnou 1 hodině (60 minut), měl by se uživatel ujistit, že velikost datové sady není větší než 10 000 000 (řádek krát sloupec) nebo chybové výsledky.
360
trial_timeout_minutes integer Maximální doba v minutách, po kterou může každá zkušební verze (podřízená úloha) v odeslané úloze automatizovaného strojového učení běžet. Po uplynutí zadané doby se podřízená úloha ukončí. 30
exit_score float (číslo s plovoucí řádovou čárkou) Skóre, které se má dosáhnout experimentem. Experiment se ukončí po dosažení zadaného skóre. Pokud není zadána (žádná kritéria), experiment se spustí, dokud nedojde k žádnému dalšímu postupu definovaného primary metric.

prognostika

Klíč Typ Popis Povolené hodnoty Default value
time_column_name řetězec Povinní účastníci
Název sloupce v datové sadě, který odpovídá časové ose jednotlivých časových řad. Vstupní datová sada pro trénování, ověřování nebo testování musí obsahovat tento sloupec, pokud je forecastingúkol . Pokud není k dispozici nebo není nastavena None, úloha prognózování automatizovaného strojového učení vyvolá chybu a experiment ukončí.
forecast_horizon řetězec nebo celé číslo Maximální horizont prognózy v jednotkách frekvence časových řad. Tyto jednotky vycházejí z odvozeného časového intervalu trénovacích dat (např. měsíčně, týdně), který prognóza používá k predikci. Pokud je nastavena na None nebo auto, jeho výchozí hodnota je nastavena na 1, což znamená "t+1" z posledního časového razítka t ve vstupních datech. auto, [int] 0
frequency string Frekvence, s jakou je generování prognózy žádoucí, například denně, týdně, ročně atd.
Pokud není zadána nebo nastavena na hodnotu None, její výchozí hodnota se odvodí z indexu času datové sady. Uživatel může nastavit jeho hodnotu větší než odvozená frekvence datové sady, ale ne menší než její hodnota. Pokud je například frekvence datové sady denně, může trvat hodnoty jako denní, týdenní, měsíční, ale ne každou hodinu, protože hodina je menší než denně(24 hodin).
Další informace najdete v dokumentaci k knihovně pandas.
None
time_series_id_column_names řetězec nebo list(řetězce) Názvy sloupců v datech, které se mají použít k seskupení dat do více časových řad. Pokud time_series_id_column_names není definována nebo nastavena na Hodnotu Žádné, automatizované strojové učení používá k detekci sloupců logiku automatického zjišťování. None
feature_lags string Představuje, jestli chce uživatel automaticky generovat prodlevy pro poskytnuté číselné funkce. Výchozí hodnota je nastavená na auto, což znamená, že automatizované strojové učení používá heuristiku založenou na automatických opravách k automatickému výběru objednávek prodlevy a generování odpovídajících lag funkcí pro všechny číselné funkce. "Žádné" znamená, že pro žádné číselné funkce se negenerují žádné prodlevy. 'auto', None None
country_or_region_for_holidays string Země nebo oblast, které se mají použít k vygenerování funkcí svátků. Tyto znaky by měly být reprezentovány ve dvouznakovém kódu země/oblasti ISO 3166, například v USA nebo GB. Seznam kódů ISO naleznete na adrese https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. None
cv_step_size řetězec nebo celé číslo Počet období mezi origin_time jednoho cv přeložení a dalším přeložením. Pokud je například pro denní data nastavená hodnota 3, čas vzniku každého přeložení je od sebe tři dny. Pokud je nastavená na hodnotu Žádné nebo není zadána, je ve výchozím nastavení nastavená na auto hodnotu Žádný. Pokud se jedná o celočíselné typy, minimální hodnota, kterou může trvat, je 1, jinak vyvolá chybu. auto, [int] auto
seasonality řetězec nebo celé číslo Sezónnost časových řad jako celočíselná násobek frekvence řady. Pokud není zadána sezónnost, jeho hodnota je nastavena na 'auto', což znamená, že je odvozena automaticky automatizovaným ml. Pokud tento parametr není nastaven na Nonehodnotu , automatizované strojové učení předpokládá časové řady jako neschůdné, což odpovídá nastavení jako celočíselné hodnoty 1. 'auto', [int] auto
short_series_handling_config string Představuje způsob, jakým by automatizované strojové učení mělo zpracovávat krátké časové řady, pokud je zadáno. Přijímá následující hodnoty:
  • 'auto' : krátká řada je vycpaná, pokud neexistují dlouhé řady, jinak se krátká řada zahodí.
  • 'pad': Všechny krátké řady jsou vycpané nulami.
  • 'drop': Všechny krátké řady jsou vyřazeny.
  • None: Krátká řada není upravena.
    'auto', 'pad', , 'drop'None auto
    target_aggregate_function string Představuje agregační funkci, která se má použít k agregaci cílového sloupce v časových řadách a generování prognóz zadanou frekvencí (definovanou v freq). Pokud je tento parametr nastavený, ale freq parametr není nastavený, dojde k chybě. Vynechá se nebo nastaví na Hodnotu Žádné, pak se nepoužije žádná agregace. 'sum', 'max', , 'min''mean' auto
    target_lags řetězec nebo celé číslo nebo list(celé číslo) Počet minulých/historických období, která se mají použít k prodlevě od cílových hodnot na základě frekvence datové sady. Ve výchozím nastavení je tento parametr vypnutý. Nastavení 'auto' umožňuje systému používat automatickou heuristické prodlevu.
    Tato vlastnost prodlevy by se měla použít, když vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení nekoeluje. Další informace najdete v tématu Opožděné funkce pro prognózování časových řad v automatizovaném strojovém učení.
    'auto', [int] None
    target_rolling_window_size řetězec nebo celé číslo Počet minulých pozorování, která se mají použít k vytvoření průběžného intervalu cílového sloupce. Při prognózování představuje tento parametr n historických období, která se mají použít ke generování prognózovaných hodnot, <= velikost trénovací sady. Pokud tuto hodnotu vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu pouze určitou část historie. 'auto'celé číslo None None
    use_stl string Komponenty, které se mají generovat použitím rozkladu STL v časových řadách. Pokud není k dispozici nebo není nastavena žádná součást časové řady, nevygeneruje se žádná součást časové řady.
    use_stl může mít dvě hodnoty:
    'season' : generovat součást sezóny.
    'season_trend' : pro generování komponent automatizovaného strojového učení i trendu.
    'season', 'seasontrend' None

    trénování nebo ověřování nebo testování dat

    Klíč Typ Popis Povolené hodnoty Default value
    datastore string Název úložiště dat, kde se data nahrají uživatelem.
    path string Cesta, ze které se mají načíst data. Může to být file cesta, folder cesta nebo pattern cesty.
    pattern určuje vzor hledání, který umožňuje použití globbingu(* a **) souborů a složek obsahujících data. Podporované typy identifikátorů URI jsou azureml, , httpswasbs, abfss, a adl. Další informace najdete v tématu Syntaxe Core yaml, abyste pochopili, jak používat formát identifikátoru azureml:// URI. Identifikátor URI umístění souboru artefaktu. Pokud tento identifikátor URI nemá schéma (například http:, azureml atd.), považuje se za místní odkaz a soubor, na který odkazuje, se nahraje do výchozího úložiště objektů blob pracovního prostoru při vytváření entity.
    type const Typ vstupních dat. Aby uživatel mohl generovat modely počítačového zpracování obrazu, musí jako vstup pro trénování modelu použít označení data obrázků ve formě tabulky MLTable. mltable mltable

    školení

    Klíč Typ Popis Povolené hodnoty Default value
    allowed_training_algorithms list(řetězec) Seznam algoritmů pro prognózování časových řad, které se mají vyzkoušet jako základní model pro trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu None, všechny podporované algoritmy se použijí během experimentu s výjimkou algoritmů zadaných v blocked_training_algorithms. 'auto_arima', 'prophet', ,'seasonal_naive''naive', 'average', 'seasonal_average', 'exponential_smoothing', 'arimax', 'lasso_lars''light_gbm''decision_tree''random_forest''sgd''knn''extreme_random_trees''tcn_forecaster''elastic_net''gradient_boosting''xg_boost_regressor' None
    blocked_training_algorithms list(řetězec) Seznam algoritmů pro prognózování časových řad, které se nespustí jako základní model při trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu Žádné, všechny podporované algoritmy se použijí během trénování modelu. 'auto_arima', 'prophet', , 'seasonal_naive''naive''seasonal_average''average', , 'light_gbm''exponential_smoothing''arimax''tcn_forecaster''elastic_net''gradient_boosting''decision_tree''knn''lasso_lars''sgd''random_forest''extreme_random_trees''xg_boost_regressor' None
    enable_dnn_training boolean Příznak pro zapnutí nebo vypnutí zahrnutí modelů založených na DNN, které se mají vyzkoušet během výběru modelu. True, False False
    enable_model_explainability boolean Představuje příznak pro zapnutí vysvětlitelnosti modelu, jako je důležitost funkce, nejlepšího modelu vyhodnoceného systémem automatizovaného strojového učení. True, False True
    enable_vote_ensemble boolean Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí hlasovacího algoritmu. Další informace o souborech naleznete v tématu Nastavení automatického trénování. true, false true
    enable_stack_ensemble boolean Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí algoritmu stackingu U úloh prognózování je tento příznak ve výchozím nastavení vypnutý, aby se zabránilo rizikům přeurčení kvůli malé trénovací sadě používané při přizpůsobení metaučujícího. Další informace o souborech naleznete v tématu Nastavení automatického trénování. true, false false

    featurizace

    Klíč Typ Popis Povolené hodnoty Default value
    mode string Režim featurizace, který má být používán úlohou automatizovaného strojového učení.
    Nastavení na:
    'auto' označuje, jestli se má krok featurizace provést automaticky.
    'off' indikuje, zda se má použít vlastní featurizace<'custom' .

    Poznámka: Pokud jsou vstupní data zhuštěná, není možné zapnout featurizaci.
    'auto', , 'off''custom' None
    blocked_transformers list(řetězec) Seznam názvů transformátorů, které mají být blokovány během kroku featurizace automatizovaným ML, pokud je featurizace mode nastavena na "vlastní". 'text_target_encoder', 'one_hot_encoder', , 'cat_target_encoder', 'wo_e_target_encoder''tf_idf', 'label_encoder''word_embedding''naive_bayes', , 'count_vectorizer''hash_one_hot_encoder' None
    column_name_and_types objekt Objekt slovníku skládající se z názvů sloupců jako klíče diktování a typů funkcí používaných k aktualizaci účelu sloupce jako přidružené hodnoty, pokud je featurizace mode nastavená na "vlastní".
    transformer_params objekt Vnořený objekt slovníku, který se skládá z názvu transformátoru jako klíče a odpovídajících parametrů přizpůsobení sloupců datové sady pro featurizaci, pokud je featurizace mode nastavena na "vlastní".
    Prognózování podporuje imputer pouze transformátor pro přizpůsobení.
    Projděte si column_transformers a zjistěte, jak vytvořit parametry přizpůsobení.
    None

    column_transformers

    Klíč Typ Popis Povolené hodnoty Default value
    fields list(řetězec) Seznam názvů sloupců, u kterých je uvedeno transformer_params , by se měl použít.
    parameters objekt Objekt slovníku, který se skládá ze strategie jako klíč a hodnota jako imputační strategie.
    Další podrobnosti o tom, jak ji můžete poskytnout, najdete v příkladech zde.

    Výstupy úloh

    Klíč Typ Popis Povolené hodnoty Default value
    type string Typ výstupu úlohy. Pro výchozí uri_folder typ výstup odpovídá složce. uri_folder, , mlflow_modelcustom_model uri_folder
    mode string Režim doručení výstupních souborů do cílového úložiště Pro režim připojení pro čtení i zápis (rw_mount) je výstupní adresář připojeným adresářem. V režimu nahrávání se soubory zapsané na konci úlohy nahrají. rw_mount, upload rw_mount

    Spuštění úlohy prognózování pomocí rozhraní příkazového řádku

    az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]