Очистка и выбор модели для прогнозирования в AutoML

В этой статье основное внимание уделяется поиску и выбору моделей прогнозирования в AutoML. Дополнительные общие сведения о методологии прогнозирования в AutoML см. в статье с общими сведениями о методах. Инструкции и примеры для обучения моделей прогнозирования в AutoML см. в статье о настройке AutoML для прогнозирования временных рядов .

Очистка модели

Основная задача AutoML — обучить и оценить несколько моделей и выбрать лучшую из них в соответствии с заданной основной метрикой. Слово "модель" здесь относится как к классу модели, например ARIMA или Случайному лесу, так и к конкретным параметрам гиперпараметров, которые различают модели в классе. Например, ARIMA относится к классу моделей, которые используют математический шаблон и набор статистических предположений. Для обучения или подгонки модели ARIMA требуется список положительных целых чисел, определяющих точную математическую форму модели; Это гиперпараметры. ARIMA(1, 0, 1) и ARIMA(2, 1, 2) имеют один и тот же класс, но разные гиперпараметры и, таким образом, могут отдельно соответствовать данным для обучения и оцениваться друг с другом. AutoML выполняет поиск или очистку по различным классам модели и внутри классов с помощью различных гиперпараметров.

В следующей таблице показаны различные методы очистки гиперпараметров, которые AutoML использует для разных классов моделей.

Группа классов модели Тип модели Метод очистки гиперпараметров
Naive, Seasonal Naive, Average, Seasonal Average Временной ряд Отсутствие развертки в классе из-за простоты модели
Экспоненциальное сглаживание, ARIMA(X) Временной ряд Поиск в сетке для развертки внутри класса
Prophet Регрессия Нет развертки в классе
Linear SGD, LARS LASSO, Elastic Net, K Ближайшие соседи, Decision Tree, Random Forest, ExtremeLy Randomized Trees, Gradient Boosted Trees, LightGBM, XGBoost Регрессия Служба рекомендаций по модели AutoML динамически изучает пространства гиперпараметров
ForecastTCN Регрессия Статический список моделей, за которым следует случайный поиск по размеру сети, коэффициенту отсрочения и скорости обучения.

Описание различных типов моделей см. в разделе моделей прогнозирования статьи с общими сведениями о методах.

Объем очистки, который выполняет AutoML, зависит от конфигурации задания прогнозирования. Критерии остановки можно указать как ограничение по времени, количество испытаний или эквивалентное количество моделей. Логику раннего завершения можно использовать в обоих случаях, чтобы остановить очистку, если основная метрика не улучшается.

выбор модели;

Поиск и выбор модели прогнозирования AutoML выполняется на следующих трех этапах:

  1. Выполните перебор моделей временных рядов и выберите лучшую модель из каждого класса , используя методы вероятности с применением штрафных санкций.
  2. Переместите модели регрессии и ранжируйте их вместе с лучшими моделями временных рядов на этапе 1 в соответствии с их основными значениями метрик из проверочных наборов.
  3. Создайте модель ансамбля на основе высокоранговых моделей, вычислите ее метрики проверки и ранжируете ее с другими моделями.

Модель с наивысшим ранжированным значением метрики в конце этапа 3 назначается лучшей моделью.

Важно!

На заключительном этапе выбора модели AutoML всегда вычисляется метрики на основе данных вне выборки . То есть данные, которые не использовались для соответствия моделям. Это помогает защититься от чрезмерной установки.

AutoML имеет две конфигурации проверки: перекрестную проверку и явную проверку данных. В случае перекрестной проверки AutoML использует входную конфигурацию для создания разделения данных на свертки обучения и проверки. В этих разбиениях необходимо сохранить порядок времени, поэтому AutoML использует так называемую перекрестную проверку скользящего источника , которая делит ряды на данные обучения и проверки с использованием точки времени источника. Скользящий во времени источник создает свертки перекрестной проверки. Каждая проверительная складка содержит следующий горизонт наблюдений сразу после позиции источника данной складки. Эта стратегия сохраняет целостность данных временных рядов и снижает риск утечки информации.

Схема, показывающая свертки перекрестной проверки, разделяющие наборы для обучения и проверки на основе размера шага перекрестной проверки.

AutoML следует обычной процедуре перекрестной проверки, обучая отдельную модель для каждой свертки и усредняя метрики проверки из всех сверток.

Перекрестная проверка для заданий прогнозирования настраивается путем задания количества сверток перекрестной проверки и, при необходимости, количества периодов времени между двумя последовательными свертками перекрестной проверки. Дополнительные сведения и пример настройки перекрестной проверки для прогнозирования см. в руководстве по пользовательским параметрам перекрестной проверки .

Вы также можете использовать собственные данные проверки. Дополнительные сведения см. в статье Настройка разделения данных и перекрестной проверки в AutoML (ПАКЕТ SDK версии 1).

Дальнейшие действия