Быстрая квантильная регрессия леса

В этой статье описывается модуль в конструкторе Машинного обучения Azure.

Этот компонент используется для создания модели быстрой квантильной регрессии на основе леса в конвейере. Быструю квантильную регрессию на основе леса полезно использовать, когда необходимо получить более подробные сведения о распределении прогнозируемого значения, а не одно среднее прогнозное значение. Этот метод содержит множество приложений, в том числе:

  • Прогнозирование цен

  • Оценка производительности учащихся или применение диаграмм роста для оценки развития детей

  • Обнаружение прогнозных связей в случаях, когда между переменными существует только слабая связь

Этот алгоритм регрессии является защищенным методом обучения. Это означает, что требуется набор данных с тегами, содержащий столбец меток. Поскольку это алгоритм регрессии, столбец меток должен содержать только числовые значения.

Дополнительные сведения о квантильной регрессии

Существует множество различных типов регрессии. Проще говоря, регрессия означает приближение модели к целевому объекту, выраженному в виде числового вектора. Однако статистические данные разрабатывают все более сложные методы регрессии.

Самое простое определение квантиля указывает на него как на значение, которое делит набор данных на группы одинакового размера, а значения квантиля отмечают границы между группами. В статистике квантили — это значения, взятые с регулярными интервалами из обратной величины интегральной функции распределения (CDF) случайной переменной.

В то время как линейные регрессионные модели пытаются прогнозировать значения числовых переменных, используя однократную оценку, усреднение, иногда возникает необходимость прогнозирования диапазона или всего распределения целевой переменной. Для этой цели были разработаны такие методы, как регрессия Байеса и квантильная регрессия.

Квантильная регрессии позволяет понять распределение прогнозируемого значения. Модели квантильной регрессии на основе дерева, такие как модель, используемая в этом компоненте, имеют дополнительное преимущество. Их можно использовать для прогнозирования непараметрических распределений.

Настройка модуля "Быстрая квантильная регрессия на основе леса"

  1. Добавьте компонент Быстрая квантильная регрессия на основе леса в конвейер в конструкторе. Вы можете найти этот компонент в разделе Алгоритмы Машинного обучения в категории Регрессия.

  2. В правой области компонента Быстрая квантильная регрессия на основе леса укажите, как должна быть обучена модель, установив параметр Создать режим учителя.

    • Single Parameter (Одиночный параметр). Если вы знаете, как хотите настроить модель, предоставьте определенный набор значений в качестве аргументов. При обучении модели используйте Обучение модели.

    • Диапазон параметров. Если вы не знаете наилучшие параметры, выполните очистку параметров с помощью компонента "Настройка гиперпараметров модели". Учитель выполняет итерацию по нескольким указанным вами значениям, чтобы найти оптимальную конфигурацию.

  3. Число деревьев. Введите максимальное число деревьев, которые могут быть созданы в ансамбле. Если вы создаете больше деревьев, это обычно приводит к большей точности, но по стоимости более длительного времени обучения.

  4. Число листьев. Введите максимальное число конечных объектов или терминальных узлов, которые могут быть созданы в любом дереве.

  5. Минимальное число экземпляров обучения, необходимых для формирования листа. Укажите минимальное число примеров, необходимых для создания любого терминального (конечного) узла в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при значении по умолчанию 1 даже один случай может привести к созданию нового правила. Если увеличить значение до 5, данные обучения должны содержать не менее 5 случаев, которые соответствуют тем же условиям.

  6. Коэффициент бэггинга. Укажите число от 0 до 1, представляющее долю выборок, которые следует использовать при построении каждой группы квантилей. Выборки выбираются случайным образом с заменой.

  7. Коэффициент разбиения. Введите число от 0 до 1, которое представляет долю признаков, используемых в каждом разбиении дерева. Используемые функции всегда выбираются случайным образом.

  8. Оцениваемые квантили. Введите разделенный точками с запятой список квантилей, для которых модель должна обучаться и создавать прогнозы.

    Например, если требуется построить модель, которая оценивает квартили следует ввести 0.25; 0.5; 0.75.

  9. При необходимости введите значение для параметра Начальное значение для случайных чисел, чтобы заполнить генератор случайных чисел, используемый моделью. Значение по умолчанию равно 0, то есть выбирается случайное начальное значение.

    Необходимо указать значение, если необходимо воспроизвести результаты последовательных запусков на одних и тех же данных.

  10. Подключите обучающий набор данных и необученную модель к одному из обучающих компонентов:

    • Если для параметра "Создать режим учителя" задано значение "Одиночный параметр", используйте компонент "Обучение модели".

    • Если для параметра "Создать режим учителя" задано значение "Диапазон параметров", используйте компонент "Настройка гиперпараметров модели".

    Предупреждение

    • При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

    • Если передать в компонент "Настройка гиперпараметров модели" один набор значений параметров, когда он ожидает диапазон для каждого параметра, он пропускает эти значения и использует значения по умолчанию для обучаемого объекта.

    • Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

  11. Отправьте конвейер.

Результаты

После завершения обучения:

  • Чтобы сохранить моментальный снимок обученной модели, выберите компонент обучения, а затем перейдите на вкладку "Выходные данные и журналы" на правой панели. Щелкните значок Зарегистрировать набор данных. Вы можете найти сохраненную как компонент модель в дереве компонентов.

Метрики оценки

Для оценки обученной модели можно использовать компонент оценки модели. Для быстрой регрессии леса квантиля метрики приведены ниже.

  • Квантильная потеря: это мера ошибки для определенного квантиля в модели.
  • Средняя потеря квантиля: это просто среднее значение квантилей потери по всем квантильным значениям, которые рассматриваются в модели. Она дает общую меру того, насколько хорошо модель выполняется во всех квантилях.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.