Zpožděné funkce prognózování časových řad v automatizovaném strojovém učení

Tento článek se zaměřuje na metody Automatizovaného strojového učení pro vytváření funkcí agregace prodlevy a posuvné okno pro prognózování regresních modelů. Podobné funkce, které používají informace v minulosti, můžou výrazně zvýšit přesnost tím, že pomáhají modelu naučit se korelační vzory v čase. Obecné informace o metodologii prognózování v Automatizovaném strojovém učení najdete v článku s přehledem metod . Pokyny a příklady pro trénování modelů prognóz v Automatizovaném strojovém učení najdete v našem článku o nastavení automatizovaného strojového učení pro prognózování časových řad .

Příklad funkce Lag

AutoML generuje prodlevy s ohledem na horizont prognózy. Příklad v této části ukazuje tento koncept. Tady používáme horizont prognózy tři a pořadí cílové prodlevy jedna. Představte si následující měsíční časová řada:

Tabulka 1: Původní časová řada

Datum $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

Nejprve vygenerujeme funkci prodlevy pro horizont $h=1$. Jak budete pokračovat ve čtení, bude jasné, proč v každé tabulce používáme jednotlivé horizonty.

Tabulka 2: Prodleva featurizace pro $h=1$

Datum $y_t$ Zdroj $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

Tabulka 2 se vygeneruje z tabulky 1 posunutím sloupce $y_t$ dolů jedním pozorováním. Přidali jsme sloupec s názvem Origin , který obsahuje data, ze kterého funkce prodlevy pocházejí. Dále vygenerujeme funkci zpoždění pouze pro horizont prognózy $h=2$.

Tabulka 3: Prodleva featurizace pro $h=2$

Datum $y_t$ Zdroj $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

Tabulka 3 se generuje z tabulky 1 posunutím sloupce $y_t$ dolů o dvě pozorování. Nakonec vygenerujeme funkci zpoždění pouze pro horizont prognózy $h=3$.

Tabulka 4: Featurizace prodlevy pro $h=3$

Datum $y_t$ Zdroj $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

V dalším kroku zřetědíme tabulky 1, 2 a 3 a přeuspořádáme řádky. Výsledek je v následující tabulce:

Tabulka 5: Dokončení prodlevy featurizace

Datum $y_t$ Zdroj $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

V poslední tabulce jsme změnili název sloupce lag (prodleva) na $y_{t-1}^{(h)}$, aby odrážel, že se prodleva generuje s ohledem na konkrétní horizont. Tabulka ukazuje, že prodlevy, které jsme vygenerovali s ohledem na horizont, lze mapovat na konvenční způsoby generování prodlev v předchozích tabulkách.

Tabulka 5 je příkladem rozšíření dat, které AutoML používá na trénovací data, aby bylo možné přímé prognózování z regresních modelů. Pokud konfigurace zahrnuje funkce prodlevy, autoML vytvoří prodlevy závislé na horizontu spolu s celočíselnou funkcí horizont. To umožňuje, aby regresní modely autoML na rozdíl od rekurzivně definovaných modelů, jako je ARIMA, mohly predikovat horizontálně $h$ bez ohledu na předpověď v hodnotě $h-1$.

Poznámka

Funkce generování horizontově závislé prodlevy přidají do datové sady nové řádky . Počet nových řádků je úměrný horizontu prognózy. Tento nárůst velikosti datové sady může vést k chybám kvůli nedostatku paměti na menších výpočetních uzlech nebo v případě, že je datová sada už velká. Řešení tohoto problému najdete v článku Nejčastější dotazy .

Dalším důsledkem této zpožděné strategie je oddělení pořadí prodlevy a prognózy horizontu. Pokud je například horizont prognózy sedm a chcete, aby automatizované strojové učení používalo funkce prodlevy, nemusíte pořadí prodlevy nastavovat na sedm, abyste zajistili predikci pro úplný horizont prognózy. Vzhledem k tomu, že AutoML generuje prodlevy s ohledem na horizont, můžete nastavit pořadí prodlev na hodnotu jedna a automatizované strojové učení rozšíří data tak, aby prodlevy libovolného pořadí byly platné až do prognózovaného horizontu.

Další kroky