Отстающие функции для прогнозирования временных рядов в AutoML

В этой статье рассматриваются методы AutoML для создания функций агрегирования запаздывания и скользящего окна для прогнозирования моделей регрессии. Такие функции, которые используют прошлые сведения, могут значительно повысить точность, помогая модели своевременно изучать корреляционные закономерности. Общие сведения о методологии прогнозирования в AutoML см. в статье Обзор методов . Инструкции и примеры для обучения моделей прогнозирования в AutoML см. в статье о настройке AutoML для прогнозирования временных рядов .

Пример функции задержки

AutoML создает задержки относительно горизонта прогноза. Пример в этом разделе иллюстрирует эту концепцию. Здесь мы используем горизонт прогноза из трех и целевой задержки в порядке 1. Рассмотрим следующие ежемесячные временные ряды:

Таблица 1. Исходные временные ряды

Дата $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

Сначала мы создадим функцию задержки для горизонта $h=1$. По мере того как вы продолжите чтение, становится ясно, почему мы используем отдельные горизонты в каждой таблице.

Таблица 2. Запаздывание признаков для $h=1$

Дата $y_t$ Исходный домен $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

Таблица 2 создается из таблицы 1 путем сдвига столбца $y_t$ вниз одним наблюдением. Мы добавили столбец с именем Origin , который содержит даты, из которого исходят функции задержки. Далее мы создадим функцию задержки для горизонта прогноза $h=2$.

Таблица 3. Запаздывание признаков для $h=2$

Дата $y_t$ Исходный домен $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

Таблица 3 создается из таблицы 1 путем сдвига столбца $y_t$ вниз на два наблюдения. Наконец, мы создадим функцию отставания для прогнозного горизонта $h=3$.

Таблица 4. Запаздывание признаков для $h=3$

Дата $y_t$ Исходный домен $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

Затем мы сцепляем таблицы 1, 2 и 3 и переупорядочим строки. Результат приведен в следующей таблице:

Таблица 5. Запаздывание признаков завершено

Дата $y_t$ Исходный домен $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

В последней таблице мы изменили имя столбца задержки на $y_{t-1}^{(h)}$, чтобы отразить, что задержка создается относительно определенного горизонта. В таблице показано, что созданные нами задержки относительно горизонта можно сопоставить с обычными способами создания задержек в предыдущих таблицах.

В таблице 5 приведен пример расширения данных, который AutoML применяет к обучающим данным, чтобы обеспечить прямое прогнозирование на основе моделей регрессии. Если конфигурация включает функции задержки, AutoML создает зависимые от горизонта задержки вместе с функцией горизонта с целочисленным значением. Это позволяет моделям регрессии прогнозирования AutoML делать прогноз на горизонте $h$ без учета прогноза на $h–1$, в отличие от рекурсивно определенных моделей, таких как ARIMA.

Примечание

Создание признаков зависимой от горизонта задержки добавляет новые строки в набор данных. Количество новых строк пропорционально горизонту прогнозирования. Увеличение размера набора данных может привести к ошибкам нехватки памяти на небольших вычислительных узлах или к тому, что размер набора данных уже велик. Сведения о решениях этой проблемы см. в статье с часто задаваемыми вопросами .

Другим следствием этой стратегии задержки является то, что отставание отставание и горизонт прогноза разделены. Если, например, горизонт прогноза равен семи и вы хотите, чтобы AutoML использовал функции задержки, вам не нужно устанавливать порядок задержки в семь, чтобы обеспечить прогнозирование по полному горизонту прогноза. Так как AutoML создает задержки по отношению к горизонту, можно задать порядок задержки равным 1, и AutoML увеличит данные, чтобы задержки любого порядка были действительными до горизонта прогноза.

Дальнейшие действия