Funzionalità differite per la previsione delle serie temporali in AutoML
Questo articolo è incentrato sui metodi di AutoML per la creazione di funzionalità di aggregazione di ritardo e finestra mobile per la previsione dei modelli di regressione. Funzionalità come queste che usano informazioni passate possono aumentare significativamente l'accuratezza aiutando il modello ad apprendere criteri di correlazione nel tempo. Per informazioni generali sulla metodologia di previsione in AutoML, vedere l'articolo sulla panoramica dei metodi. Istruzioni ed esempi per il training dei modelli di previsione in AutoML sono disponibili nell'articolo Configurare AutoML per le previsioni delle serie temporali.
Esempio di funzionalità di ritardo
AutoML genera ritardi rispetto all'orizzonte di previsione. L'esempio in questa sezione illustra questo concetto. In questo caso, si usa un orizzonte di previsione di tre e un ordine di ritardo di destinazione di uno. Si consideri la serie temporale mensile seguente:
Tabella 1: Serie temporale originale
Data | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
Prima di tutto, viene generata la funzionalità di ritardo soltanto per l'orizzonte $h=1$. Man mano che si continua a leggere, diventerà chiaro il motivo per cui usiamo i singoli orizzonti in ogni tabella.
Tabella 2: Definizione delle funzionalità di ritardo per $h=1$
Data | $y_t$ | Origine | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
La tabella 2 viene generata dalla tabella 1 spostando la colonna $y_t$ verso il basso con una singola osservazione. È stata aggiunta una colonna denominata Origin
con le date da cui provengono le funzionalità di ritardo. Successivamente, viene generata la funzionalità di ritardo soltanto per l'orizzonte di previsione $h=2$.
Tabella 3: Definizione delle funzionalità di ritardo per $h=2$
Data | $y_t$ | Origine | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
La tabella 3 viene generata dalla tabella 1 spostando la colonna $y_t$ verso il basso di due osservazioni. Infine, verrà generata la funzionalità di ritardo soltanto per l'orizzonte di previsione $h=3$.
Tabella 4: Definizione delle funzionalità di ritardo per $h=3$
Data | $y_t$ | Origine | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Successivamente, vengono concatenate le tabelle 1, 2 e 3 e vengono riorganizzate le righe. Il risultato è riportato nella tabella seguente:
Tabella 5: Definizione delle funzionalità di ritardo completata
Data | $y_t$ | Origine | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Nella tabella finale il nome della colonna di ritardo è stato modificato in $y_{t-1}^{(h)}$ in modo da riflettere che il ritardo viene generato rispetto a un orizzonte specifico. La tabella mostra che i ritardi generati rispetto all'orizzonte possono essere mappati alle modalità tradizionali di generazione dei ritardi nelle tabelle precedenti.
La tabella 5 è un esempio dell'aumento dei dati applicato da AutoML ai dati di training per abilitare la previsione diretta dai modelli di regressione. Quando la configurazione include funzionalità di ritardo, AutoML crea ritardi dipendenti dall'orizzonte insieme a una funzionalità di orizzonte con valori interi. Ciò consente ai modelli di regressione di previsione di AutoML di eseguire una stima all'orizzonte $h$ senza considerare la stima a $h-1$, a differenza dei modelli definiti in modo ricorsivo come ARIMA.
Nota
La generazione di funzionalità di ritardo dipendenti dall'orizzonte aggiunge nuove righe al set di dati. Il numero di nuove righe è proporzionale all'orizzonte di previsione. Questa crescita delle dimensioni del set di dati può causare errori di memoria insufficiente su nodi di calcolo più piccoli o quando le dimensioni del set di dati sono già considerevoli. Per le soluzioni a questo problema, vedere l'articolo delle domande frequenti.
Un'altra conseguenza di questa strategia di ritardo è che l'ordine di ritardo e l'orizzonte di previsione sono disaccoppiati. Se, ad esempio, l'orizzonte di previsione è sette e si vuole che AutoML usi le funzionalità di ritardo, non è necessario impostare l'ordine di ritardo su sette per garantire la stima su un orizzonte di previsione completo. Poiché AutoML genera ritardi rispetto all'orizzonte, è possibile impostare l'ordine di ritardo su uno e AutoML aumenta i dati in modo che i ritardi di qualsiasi ordine siano validi fino all'orizzonte di previsione.
Passaggi successivi
- Altre informazioni su come configurare AutoML per eseguire il training di un modello di previsione di serie temporali.
- Vedere le domande frequenti sulle previsioni di AutoML.
- Informazioni sulle funzionalità di calendario per la previsione di serie temporali in AutoML.
- Informazioni su come AutoML usa l'apprendimento automatico per creare modelli di previsione.