ForecastingSettings Třída

Nastavení prognózy pro úlohu Automatizovaného strojového učení

Dědičnost
azure.ai.ml.entities._mixins.RestTranslatableMixin
ForecastingSettings

Konstruktor

ForecastingSettings(*, country_or_region_for_holidays: str | None = None, cv_step_size: int | None = None, forecast_horizon: str | int | None = None, target_lags: str | int | List[int] | None = None, target_rolling_window_size: str | int | None = None, frequency: str | None = None, feature_lags: str | None = None, seasonality: str | int | None = None, use_stl: str | None = None, short_series_handling_config: str | None = None, target_aggregate_function: str | None = None, time_column_name: str | None = None, time_series_id_column_names: str | List[str] | None = None, features_unknown_at_forecast_time: str | List[str] | None = None)

Parametry

Name Description
country_or_region_for_holidays
Vyžadováno

Země nebo oblast, která se používá k vygenerování funkcí svátků. Mělo by to být dvoumísmenný kód země/oblasti ISO 3166, například "US" nebo "GB".

cv_step_size
Vyžadováno

Počet období mezi origin_time jednoho přeložení životopisu a dalším přeložením. Pokud například n_step = 3 pro denní data, čas počátku každého záhybů bude od sebe tři dny.

forecast_horizon
Vyžadováno

Požadovaný maximální horizont prognózy v jednotkách frekvence časových řad. Výchozí hodnota je 1.

Jednotky jsou založené na časovém intervalu trénovacích dat, například měsíčních nebo týdenních, které by měl prognózovat. Při prognózování typu úkolu je tento parametr povinný. Další informace o nastavení parametrů prognózy najdete v tématu Automatické trénování modelu prognózy časových řad.

target_lags
Vyžadováno

Počet minulých období, která mají být zpožděna od cílového sloupce. Ve výchozím nastavení jsou prodlevy vypnuté.

Při prognózování tento parametr představuje počet řádků, které mají zaostávat v cílových hodnotách na základě frekvence dat. To je reprezentováno jako seznam nebo jedno celé číslo. Prodleva by se měla použít, když se vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení neshoduje nebo nekoreluje. Například při pokusu o prognózu poptávky po produktu může poptávka v libovolném měsíci záviset na ceně konkrétních komodit 3 měsíce před. V tomto příkladu můžete chtít záporně zaostávat cíl (poptávka) o 3 měsíce, aby model trénoval na správné relaci. Další informace najdete v tématu Automatické trénování modelu prognózy časových řad.

Poznámka k automatické detekci cílových prodlev a velikosti posuvného okna. Podívejte se prosím na odpovídající komentáře v oddílu průběžného okna. Další algoritmus používáme k detekci optimální cílové prodlevy a velikosti posuvných oken.

  1. Odhad maximálního pořadí prodlevy pro výběr funkce zpětného pohledu V našem případě se jedná o počet období do dalšího intervalu četnosti data, tj. pokud je frekvence denní, bude to týden (7), pokud je týden, bude to měsíc (4). Tyto hodnoty vynásobené dvěma jsou největší možné hodnoty prodlev/průběžných oken. V našich příkladech vezmeme v úvahu pořadí maximální prodlevy 14 a 8 v uvedeném pořadí).

  2. Vytvořte řadu bez sezóny přidáním komponent trendu a reziduí. Použije se v dalším kroku.

  3. Odhad funkce PACF – Částečná automatická korelace na datech z (2) a vyhledejte body, kde je automatická korelace významná, tj. její absolutní hodnota je více než 1,96/square_root (maximální hodnota prodlevy), což odpovídá významnosti 95 %.

  4. Pokud jsou všechny body významné, považujeme to za silnou sezónnost a nevytváříme zpětné ohlédněte se.

  5. Hodnoty PACF prohledáme od začátku a hodnotu před první nevýznamnou automatickou korelací určíme prodlevu. Pokud první významný prvek (hodnota koreluje se sebou) následuje nevýznamný, prodleva bude 0 a nebudeme používat funkce zpětného pohledu.

target_rolling_window_size
Vyžadováno

Počet minulých období použitých k vytvoření průměru klouzavého okna cílového sloupce.

Při prognózování tento parametr představuje n historických období, která se mají použít ke generování předpokládaných hodnot, <= velikost trénovací sady. Pokud ho vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu jenom určitou část historie. Pokud je nastavená hodnota auto, bude se postupné okno odhadovat jako poslední hodnota, kde hodnota PACF je vyšší než prahová hodnota významnosti. Podrobnosti najdete v části target_lags.

frequency
Vyžadováno

Četnost prognóz.

Při prognózování tento parametr představuje období, ve kterém je prognóza požadovaná, například denně, týdně, ročně atd. Frekvence prognózy je ve výchozím nastavení frekvence datové sady. Volitelně ho můžete nastavit na větší (ale ne menší) než četnost datové sady. Agregujeme data a vygenerujeme výsledky s frekvencí prognózy. U denních dat můžete například nastavit denní, týdenní nebo měsíční frekvenci, ale ne každou hodinu. Frekvence musí být alias posunu pandas. Další informace najdete v dokumentaci k knihovně pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

feature_lags
Vyžadováno

Příznak pro generování prodlev pro číselné funkce s automatickým nebo žádným příznakem

seasonality
Vyžadováno

Nastavte sezónnost časových řad jako celočíselný násobek frekvence řady. Pokud je sezónnost nastavená na "auto", bude odvozena. Je-li nastavena na Hodnotu Žádný, předpokládá se, že časová řada není sezónní, což odpovídá sezónnosti=1.

use_stl
Vyžadováno

Nakonfigurujte rozklad STL cílového sloupce časové řady. use_stl můžou mít tři hodnoty: Žádné (výchozí) – bez rozkladu stl, "season" – pouze generovat komponentu sezóny a season_trend – generovat komponenty sezóny i trendu.

short_series_handling_config
Vyžadováno

Parametr definující, jak má AutoML zpracovávat krátké časové řady.

Možné hodnoty: "auto" (výchozí), "pad", "drop" a None.

  • automatické krátké řady budou vycpány, pokud neexistují žádné dlouhé řady, jinak budou krátké řady vyřazeny.
  • pad všechny krátké řady budou vycpané.
  • všechny krátké řady budou vyhozeny".
  • Žádná krátká řada nebude změněna. Pokud je tato hodnota nastavená na "pad", bude tabulka vycpaná nulami a prázdnými hodnotami pro regresory a náhodnými hodnotami pro cíl se střední hodnotou rovnající se mediánu cílové hodnoty pro dané ID časové řady. Pokud je medián větší nebo roven nule, bude minimální vycpaná hodnota oříznuta nulou. Vstup:

Date (Datum)

numeric_value

řetězec

Cíl

01. 01. 2020

23

green

55

Výstup za předpokladu, že minimální počet hodnot je čtyři:

Date (Datum)

numeric_value

řetězec

Cíl

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

01. 01. 2020

23

green

55

Poznámka: Máme dva parametry short_series_handling_configuration a starší short_series_handling. Když jsou oba parametry nastavené, synchronizujeme je, jak je znázorněno v následující tabulce (short_series_handling_configuration a short_series_handling pro stručnost jsou označeny jako handling_configuration a zpracování).

Zpracování

zpracování konfigurace

výsledná manipulace

výsledná konfigurace zpracování

Ano

auto

Ano

auto

Ano

Pad

Ano

auto

Ano

drop

Ano

auto

Ano

Žádné

Ne

Žádné

Ne

auto

Ne

Žádné

Ne

Pad

Ne

Žádné

Ne

drop

Ne

Žádné

Ne

Žádné

Ne

Žádné

target_aggregate_function
Vyžadováno
str

Funkce, která se má použít k agregaci cílového sloupce časové řady tak, aby odpovídala frekvenci zadané uživatelem. Pokud je target_aggregation_function nastaven, ale není nastavený parametr freq, dojde k chybě. Možné cílové agregační funkce jsou: "sum", "max", "min" a "mean".

  • Hodnoty cílového sloupce se agregují na základě zadané operace. Součet je obvykle vhodný pro většinu scénářů.

  • Sloupce s číselnou vysvětlující hodnotou ve vašich datech se agregují podle součtu, průměru, minimální hodnoty a maximální hodnoty. V důsledku toho automatizované strojové učení vygeneruje nové sloupce s příponou s názvem agregační funkce a použije vybranou agregační operaci.

  • U sloupců s předpověďmi kategorií se data agregují podle režimu, nejvýraznější kategorie v okně.

  • Sloupce vysvětlující datum se agregují podle minimální hodnoty, maximální hodnoty a režimu.

Frekvence

target_aggregation_function

Mechanismus oprav pravidelnosti dat

Žádné (výchozí)

Žádné (výchozí)

Agregace se nepoužije. Pokud validfrekvence nemůže být neurčena, bude vyvolána chyba.

Nějaká hodnota

Žádné (výchozí)

Agregace se nepoužije. Pokud je počet datových bodů vyhovujících dané frekvenční mřížce menší, pak se 90 % těchto bodů odebere, jinak dojde k chybě.

Žádné (výchozí)

Agregační funkce

Došlo k chybě týkající se chybějícího parametrufrekvence.

Nějaká hodnota

Agregační funkce

Agregovat na frekvenci pomocíprovidované agregační funkce.

time_column_name
Vyžadováno

Název sloupce času. Tento parametr se vyžaduje při prognózování k určení sloupce datetime ve vstupních datech použitých pro sestavení časové řady a odvozování její frekvence.

time_series_id_column_names
Vyžadováno

Názvy sloupců, které se používají k seskupení časových období. Dá se použít k vytvoření více řad. Pokud nejsou definovány názvy sloupců id časové řady nebo zadané sloupce identifikátorů neidentifikují všechny řady v datové sadě, identifikátory časových řad se pro vaši datovou sadu automaticky vytvoří.

features_unknown_at_forecast_time
Vyžadováno

Sloupce funkcí, které jsou k dispozici pro trénování, ale nejsou v době prognózy nebo odvozování neznámé. Pokud je features_unknown_at_forecast_time nastavený na prázdný seznam, předpokládá se, že jsou v době odvozování známé všechny sloupce funkcí v datové sadě. Pokud tento parametr není nastavený, podpora budoucích funkcí se nepovolí.

Výhradně parametry klíčových slov

Name Description
country_or_region_for_holidays
Vyžadováno
cv_step_size
Vyžadováno
forecast_horizon
Vyžadováno
target_lags
Vyžadováno
target_rolling_window_size
Vyžadováno
frequency
Vyžadováno
feature_lags
Vyžadováno
seasonality
Vyžadováno
use_stl
Vyžadováno
short_series_handling_config
Vyžadováno
target_aggregate_function
Vyžadováno
time_column_name
Vyžadováno
time_series_id_column_names
Vyžadováno
features_unknown_at_forecast_time
Vyžadováno