Zpožděné funkce prognózování časových řad v automatizovaném strojovém učení
Tento článek se zaměřuje na metody Automatizovaného strojového učení pro vytváření funkcí agregace prodlevy a posuvné okno pro prognózování regresních modelů. Podobné funkce, které používají informace v minulosti, můžou výrazně zvýšit přesnost tím, že pomáhají modelu naučit se korelační vzory v čase. Obecné informace o metodologii prognózování v Automatizovaném strojovém učení najdete v článku s přehledem metod . Pokyny a příklady pro trénování modelů prognóz v Automatizovaném strojovém učení najdete v našem článku o nastavení automatizovaného strojového učení pro prognózování časových řad .
Příklad funkce Lag
AutoML generuje prodlevy s ohledem na horizont prognózy. Příklad v této části ukazuje tento koncept. Tady používáme horizont prognózy tři a pořadí cílové prodlevy jedna. Představte si následující měsíční časová řada:
Tabulka 1: Původní časová řada
Datum | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
Nejprve vygenerujeme funkci prodlevy pro horizont $h=1$. Jak budete pokračovat ve čtení, bude jasné, proč v každé tabulce používáme jednotlivé horizonty.
Tabulka 2: Prodleva featurizace pro $h=1$
Datum | $y_t$ | Zdroj | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
Tabulka 2 se vygeneruje z tabulky 1 posunutím sloupce $y_t$ dolů jedním pozorováním. Přidali jsme sloupec s názvem Origin
, který obsahuje data, ze kterého funkce prodlevy pocházejí. Dále vygenerujeme funkci zpoždění pouze pro horizont prognózy $h=2$.
Tabulka 3: Prodleva featurizace pro $h=2$
Datum | $y_t$ | Zdroj | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
Tabulka 3 se generuje z tabulky 1 posunutím sloupce $y_t$ dolů o dvě pozorování. Nakonec vygenerujeme funkci zpoždění pouze pro horizont prognózy $h=3$.
Tabulka 4: Featurizace prodlevy pro $h=3$
Datum | $y_t$ | Zdroj | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
V dalším kroku zřetědíme tabulky 1, 2 a 3 a přeuspořádáme řádky. Výsledek je v následující tabulce:
Tabulka 5: Dokončení prodlevy featurizace
Datum | $y_t$ | Zdroj | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
V poslední tabulce jsme změnili název sloupce lag (prodleva) na $y_{t-1}^{(h)}$, aby odrážel, že se prodleva generuje s ohledem na konkrétní horizont. Tabulka ukazuje, že prodlevy, které jsme vygenerovali s ohledem na horizont, lze mapovat na konvenční způsoby generování prodlev v předchozích tabulkách.
Tabulka 5 je příkladem rozšíření dat, které AutoML používá na trénovací data, aby bylo možné přímé prognózování z regresních modelů. Pokud konfigurace zahrnuje funkce prodlevy, autoML vytvoří prodlevy závislé na horizontu spolu s celočíselnou funkcí horizont. To umožňuje, aby regresní modely autoML na rozdíl od rekurzivně definovaných modelů, jako je ARIMA, mohly predikovat horizontálně $h$ bez ohledu na předpověď v hodnotě $h-1$.
Poznámka
Funkce generování horizontově závislé prodlevy přidají do datové sady nové řádky . Počet nových řádků je úměrný horizontu prognózy. Tento nárůst velikosti datové sady může vést k chybám kvůli nedostatku paměti na menších výpočetních uzlech nebo v případě, že je datová sada už velká. Řešení tohoto problému najdete v článku Nejčastější dotazy .
Dalším důsledkem této zpožděné strategie je oddělení pořadí prodlevy a prognózy horizontu. Pokud je například horizont prognózy sedm a chcete, aby automatizované strojové učení používalo funkce prodlevy, nemusíte pořadí prodlevy nastavovat na sedm, abyste zajistili predikci pro úplný horizont prognózy. Vzhledem k tomu, že AutoML generuje prodlevy s ohledem na horizont, můžete nastavit pořadí prodlev na hodnotu jedna a automatizované strojové učení rozšíří data tak, aby prodlevy libovolného pořadí byly platné až do prognózovaného horizontu.
Další kroky
- Přečtěte si další informace o tom, jak nastavit AutoML pro trénování modelu prognózování časových řad.
- Projděte si nejčastější dotazy k prognózování Automatizovaného strojového učení.
- Seznamte se s funkcemi kalendáře pro prognózování časových řad v Automatizovaném strojovém učení.
- Přečtěte si o tom, jak AutoML využívá strojové učení k vytváření modelů prognóz.