Отстающие функции для прогнозирования временных рядов в AutoML

Статья
05/27/2023

В этой статье рассматриваются методы AutoML для создания функций агрегирования запаздывания и скользящего окна для прогнозирования моделей регрессии. Такие функции, которые используют прошлые сведения, могут значительно повысить точность, помогая модели своевременно изучать корреляционные закономерности. Общие сведения о методологии прогнозирования в AutoML см. в статье Обзор методов . Инструкции и примеры для обучения моделей прогнозирования в AutoML см. в статье о настройке AutoML для прогнозирования временных рядов .

Пример функции задержки

AutoML создает задержки относительно горизонта прогноза. Пример в этом разделе иллюстрирует эту концепцию. Здесь мы используем горизонт прогноза из трех и целевой задержки в порядке 1. Рассмотрим следующие ежемесячные временные ряды:

Таблица 1. Исходные временные ряды

Дата	$y_t$
1/1/2001	0
2/1/2001	10
3/1/2001	20
4/1/2001	30
5/1/2001	40
6/1/2001	50

Сначала мы создадим функцию задержки для горизонта $h=1$. По мере того как вы продолжите чтение, становится ясно, почему мы используем отдельные горизонты в каждой таблице.

Таблица 2. Запаздывание признаков для $h=1$

Дата	$y_t$	Исходный домен	$y_{t-1}$	$h$
1/1/2001	0	12/1/2000	-	1
2/1/2001	10	1/1/2001	0	1
3/1/2001	20	2/1/2001	10	1
4/1/2001	30	3/1/2001	20	1
5/1/2001	40	4/1/2001	30	1
6/1/2001	50	5/1/2001	40	1

Таблица 2 создается из таблицы 1 путем сдвига столбца $y_t$ вниз одним наблюдением. Мы добавили столбец с именем Origin , который содержит даты, из которого исходят функции задержки. Далее мы создадим функцию задержки для горизонта прогноза $h=2$.

Таблица 3. Запаздывание признаков для $h=2$

Дата	$y_t$	Исходный домен	$y_{t-2}$	$h$
1/1/2001	0	11/1/2000	-	2
2/1/2001	10	12/1/2000	-	2
3/1/2001	20	1/1/2001	0	2
4/1/2001	30	2/1/2001	10	2
5/1/2001	40	3/1/2001	20	2
6/1/2001	50	4/1/2001	30	2

Таблица 3 создается из таблицы 1 путем сдвига столбца $y_t$ вниз на два наблюдения. Наконец, мы создадим функцию отставания для прогнозного горизонта $h=3$.

Таблица 4. Запаздывание признаков для $h=3$

Дата	$y_t$	Исходный домен	$y_{t-3}$	$h$
1/1/2001	0	10/1/2000	-	3
2/1/2001	10	11/1/2000	-	3
3/1/2001	20	12/1/2000	-	3
4/1/2001	30	1/1/2001	0	3
5/1/2001	40	2/1/2001	10	3
6/1/2001	50	3/1/2001	20	3

Затем мы сцепляем таблицы 1, 2 и 3 и переупорядочим строки. Результат приведен в следующей таблице:

Таблица 5. Запаздывание признаков завершено

Дата	$y_t$	Исходный домен	$y_{t-1}^{(h)}$	$h$
1/1/2001	0	12/1/2000	-	1
1/1/2001	0	11/1/2000	-	2
1/1/2001	0	10/1/2000	-	3
2/1/2001	10	1/1/2001	0	1
2/1/2001	10	12/1/2000	-	2
2/1/2001	10	11/1/2000	-	3
3/1/2001	20	2/1/2001	10	1
3/1/2001	20	1/1/2001	0	2
3/1/2001	20	12/1/2000	-	3
4/1/2001	30	3/1/2001	20	1
4/1/2001	30	2/1/2001	10	2
4/1/2001	30	1/1/2001	0	3
5/1/2001	40	4/1/2001	30	1
5/1/2001	40	3/1/2001	20	2
5/1/2001	40	2/1/2001	10	3
6/1/2001	50	4/1/2001	40	1
6/1/2001	50	4/1/2001	30	2
6/1/2001	50	3/1/2001	20	3

В последней таблице мы изменили имя столбца задержки на $y_{t-1}^{(h)}$, чтобы отразить, что задержка создается относительно определенного горизонта. В таблице показано, что созданные нами задержки относительно горизонта можно сопоставить с обычными способами создания задержек в предыдущих таблицах.

В таблице 5 приведен пример расширения данных, который AutoML применяет к обучающим данным, чтобы обеспечить прямое прогнозирование на основе моделей регрессии. Если конфигурация включает функции задержки, AutoML создает зависимые от горизонта задержки вместе с функцией горизонта с целочисленным значением. Это позволяет моделям регрессии прогнозирования AutoML делать прогноз на горизонте $h$ без учета прогноза на $h–1$, в отличие от рекурсивно определенных моделей, таких как ARIMA.

Примечание

Создание признаков зависимой от горизонта задержки добавляет новые строки в набор данных. Количество новых строк пропорционально горизонту прогнозирования. Увеличение размера набора данных может привести к ошибкам нехватки памяти на небольших вычислительных узлах или к тому, что размер набора данных уже велик. Сведения о решениях этой проблемы см. в статье с часто задаваемыми вопросами .

Другим следствием этой стратегии задержки является то, что отставание отставание и горизонт прогноза разделены. Если, например, горизонт прогноза равен семи и вы хотите, чтобы AutoML использовал функции задержки, вам не нужно устанавливать порядок задержки в семь, чтобы обеспечить прогнозирование по полному горизонту прогноза. Так как AutoML создает задержки по отношению к горизонту, можно задать порядок задержки равным 1, и AutoML увеличит данные, чтобы задержки любого порядка были действительными до горизонта прогноза.

Дальнейшие действия

Узнайте больше о настройке AutoML для обучения модели прогнозирования временных рядов.
Ознакомьтесь с часто задаваемыми вопросами о прогнозировании AutoML.
Сведения о функциях календаря для прогнозирования временных рядов в AutoML.
Узнайте, как AutoML использует машинное обучение для создания моделей прогнозирования.

Отстающие функции для прогнозирования временных рядов в AutoML

Пример функции задержки

Дальнейшие действия

Дополнительные ресурсы