Отстающие функции для прогнозирования временных рядов в AutoML
В этой статье рассматриваются методы AutoML для создания функций агрегирования запаздывания и скользящего окна для прогнозирования моделей регрессии. Такие функции, которые используют прошлые сведения, могут значительно повысить точность, помогая модели своевременно изучать корреляционные закономерности. Общие сведения о методологии прогнозирования в AutoML см. в статье Обзор методов . Инструкции и примеры для обучения моделей прогнозирования в AutoML см. в статье о настройке AutoML для прогнозирования временных рядов .
Пример функции задержки
AutoML создает задержки относительно горизонта прогноза. Пример в этом разделе иллюстрирует эту концепцию. Здесь мы используем горизонт прогноза из трех и целевой задержки в порядке 1. Рассмотрим следующие ежемесячные временные ряды:
Таблица 1. Исходные временные ряды
Дата | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
Сначала мы создадим функцию задержки для горизонта $h=1$. По мере того как вы продолжите чтение, становится ясно, почему мы используем отдельные горизонты в каждой таблице.
Таблица 2. Запаздывание признаков для $h=1$
Дата | $y_t$ | Исходный домен | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
Таблица 2 создается из таблицы 1 путем сдвига столбца $y_t$ вниз одним наблюдением. Мы добавили столбец с именем Origin
, который содержит даты, из которого исходят функции задержки. Далее мы создадим функцию задержки для горизонта прогноза $h=2$.
Таблица 3. Запаздывание признаков для $h=2$
Дата | $y_t$ | Исходный домен | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
Таблица 3 создается из таблицы 1 путем сдвига столбца $y_t$ вниз на два наблюдения. Наконец, мы создадим функцию отставания для прогнозного горизонта $h=3$.
Таблица 4. Запаздывание признаков для $h=3$
Дата | $y_t$ | Исходный домен | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Затем мы сцепляем таблицы 1, 2 и 3 и переупорядочим строки. Результат приведен в следующей таблице:
Таблица 5. Запаздывание признаков завершено
Дата | $y_t$ | Исходный домен | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
В последней таблице мы изменили имя столбца задержки на $y_{t-1}^{(h)}$, чтобы отразить, что задержка создается относительно определенного горизонта. В таблице показано, что созданные нами задержки относительно горизонта можно сопоставить с обычными способами создания задержек в предыдущих таблицах.
В таблице 5 приведен пример расширения данных, который AutoML применяет к обучающим данным, чтобы обеспечить прямое прогнозирование на основе моделей регрессии. Если конфигурация включает функции задержки, AutoML создает зависимые от горизонта задержки вместе с функцией горизонта с целочисленным значением. Это позволяет моделям регрессии прогнозирования AutoML делать прогноз на горизонте $h$ без учета прогноза на $h–1$, в отличие от рекурсивно определенных моделей, таких как ARIMA.
Примечание
Создание признаков зависимой от горизонта задержки добавляет новые строки в набор данных. Количество новых строк пропорционально горизонту прогнозирования. Увеличение размера набора данных может привести к ошибкам нехватки памяти на небольших вычислительных узлах или к тому, что размер набора данных уже велик. Сведения о решениях этой проблемы см. в статье с часто задаваемыми вопросами .
Другим следствием этой стратегии задержки является то, что отставание отставание и горизонт прогноза разделены. Если, например, горизонт прогноза равен семи и вы хотите, чтобы AutoML использовал функции задержки, вам не нужно устанавливать порядок задержки в семь, чтобы обеспечить прогнозирование по полному горизонту прогноза. Так как AutoML создает задержки по отношению к горизонту, можно задать порядок задержки равным 1, и AutoML увеличит данные, чтобы задержки любого порядка были действительными до горизонта прогноза.
Дальнейшие действия
- Узнайте больше о настройке AutoML для обучения модели прогнозирования временных рядов.
- Ознакомьтесь с часто задаваемыми вопросами о прогнозировании AutoML.
- Сведения о функциях календаря для прогнозирования временных рядов в AutoML.
- Узнайте, как AutoML использует машинное обучение для создания моделей прогнозирования.