Быстрая квантильная регрессия леса

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает модель квантильной регрессии

категория: Машинное обучение/инициализация модели или регрессии

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль регрессии квантилей в классическом лесу в Машинное обучение Studio (классическая модель) для создания модели регрессии, которая может прогнозировать значения для указанного числа квантилей.

Квантильную регрессию полезно использовать, когда необходимо получить более подробные сведения о распределении прогнозируемого значения, а не одно среднее прогнозное значение. Этот метод применяется во многих областях:

Прогнозирование цен
Оценка успеваемости студентов или применение карт физического развития для оценки развития детей
Обнаружение прогнозных связей в случаях, где есть только слабые связи между переменными

Этот алгоритм регрессии является защищенным методом обучения. Это означает, что требуется набор данных с тегами, содержащий столбец меток. Поскольку это алгоритм регрессии, столбец меток должен содержать только числовые значения.

Дополнительные сведения о квантильной регрессии

Существует множество различных типов регрессии. В наиболее общем смысле регрессия означает подгонку модели под цель, выраженную в виде числового вектора. Тем не менее специалисты по статистике разрабатывают значительно усовершенствованные методы регрессии.

Самое простое определение квантиля указывает на него как на значение, которое делит набор данных на группы одинакового размера, а значения квантиля отмечают границы между группами. В статистике квантили — это значения, взятые с регулярными интервалами из обратной величины интегральной функции распределения (CDF) случайной переменной.

В то время как линейные регрессионные модели пытаются прогнозировать значения числовых переменных, используя однократную оценку, усреднение, иногда возникает необходимость прогнозирования диапазона или всего распределения целевой переменной. Для этой цели были разработаны такие методы, как регрессия Байеса и квантильная регрессия.

Квантильная регрессии позволяет понять распределение прогнозируемого значения. Модели квантильной регрессии на основе дерева, такие как модель, используемая в этом модуле, имеют дополнительное преимущество. Их можно использовать для прогнозирования непараметрических распределений.

Дополнительные сведения о реализации и ресурсах см. в разделе Технические примечания.

Настройка Fast_Forest регрессии квантилей

Вы настраиваете свойства модели регрессии с помощью этого модуля, а затем Обучите ее с помощью одного из обучающих модулей.

Действия по настройке значительно депенднг при предоставлении фиксированного набора параметров или при настройке очистки параметров.

Создание модели регрессии квантилей с помощью фиксированных параметров
Создание модели регрессии квантилей с помощью очистки параметров

Создание модели регрессии квантилей с помощью фиксированных параметров

Предполагая, что вы умеете настраивать модель, вы можете указать в качестве аргументов конкретный набор значений. При обучении модели используйте Обучение модели.

Добавьте модуль регрессии быстрого леса квантилей в эксперимент в студии (классическая модель).
Присвойте параметру создать режим инструктора значение Single.
Для параметра число деревьеввведите максимальное число деревьев, которые могут быть созданы в ансамблей. Создание большего количества деревьев, как правило, ведет к повышению точности при одновременном увеличении времени обучения.
Для параметра число конечных объектоввведите максимальное число конечных объектов или узлов терминалов, которые могут быть созданы в любом дереве.
Для минимального количества обучающих экземпляров, необходимых для формирования листа , укажите минимальное число примеров, необходимых для создания любого узла терминала (конечного) в дереве.

Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если увеличить значение до 5, то обучающие данные должны содержать по крайней мере 5 вариантов, отвечающих тем же условиям.
Для дробной части баггингукажите число от 0 до 1, представляющее долю выборок, которые следует использовать при построении каждой группы квантилей. Выборки выбираются случайным образом с заменой.
Для параметра дробная часть функциивведите число от 0 до 1, которое указывает долю общего числа функций, используемых при построении любого конкретного дерева. Функции всегда выбираются случайным образом.
Для разделения дробейвведите число от 0 до 1, которое представляет часть компонентов, используемых в каждом разбиении дерева. Функции всегда выбираются случайным образом.
Для параметра количество образцов квантилейвведите число вариантов, которые нужно оценить при оценке квантилей.
Для оценки квантилейвведите разделенный запятыми список квантилей, для которого модель должна обучаться и создавать прогнозы.

Например, если требуется построить модель, которая оценивает квартили следует ввести 0.25, 0.5, 0.75.
При необходимости введите значение для параметра Начальное значение для случайных чисел, чтобы заполнить генератор случайных чисел, используемый моделью. По умолчанию значение равно 0, то есть выбирается случайное начальное значение.

Необходимо указать значение, если необходимо воспроизвести результаты последовательных запусков на одних и тех же данных.
Установите флажок Разрешить неизвестные уровни категорий , чтобы создать группу для неизвестных значений.

Если отменить его выбор, модель сможет принимать только значения, содержащиеся в данных для обучения.

При выборе этого параметра модель может быть менее точной для известных значений, но она может предоставлять лучшие прогнозы для новых (неизвестных) значений.
Подключение набор данных для обучения выберите один столбец меток и подключите модель обучения.
Запустите эксперимент.

Использование очистки параметров для создания модели регрессии квантилей

Если вы не знаете оптимальных параметров для модели, можно настроить параметр очистки и указать диапазон значений в качестве аргументов. При обучении модели используйте модуль Настройка модели параметры .

Добавьте модуль регрессии быстрого леса квантилей в эксперимент в студии (классическая модель).
Задайте для параметра режим создания инструктора значение диапазон параметров.

Очистка параметров рекомендуется, если вы не знаете наилучших параметров. Указав несколько значений и используя модуль Настройка параметров модели для обучения модели, можно найти оптимальный набор параметров для данных.

После выбора очистки параметра для каждого настраиваемого свойства можно задать одно значение или несколько значений. Например, можно исправить количество деревьев, но изменить другие значения, определяющие способ построения каждого дерева, случайным образом.
- Если ввести одно значение, это значение будет использоваться во всех итерациях очистки, даже если другие значения изменяются.
- Введите разделенный запятыми список дискретных значений для использования. Эти значения используются в сочетании с другими свойствами.
- Используйте Построитель диапазонов , чтобы определить диапазон непрерывных значений.
В процессе обучения модуль настройки модели перебирает различные сочетания значений для создания лучшей модели.
Для параметра Максимальное число конечных объектов на деревовведите общее число конечных объектов или узлов терминалов, которое будет разрешено в каждом дереве.
Для числа построенных деревьеввведите число итераций, которые должны выполняться при создании ансамблей. Создавая больше деревьев, вы можете получить более эффективное покрытие за счет увеличения времени обучения.
Для параметра минимальное число выборок на конечный узелукажите, сколько вариантов требуется для создания конечного узла.

Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.
В поле диапазон для дробной части баггингвведите долю выборок, которые следует использовать при создании каждой группы квантилей. Выборки выбираются случайным образом с заменой.

Каждая дробь должна быть числом от 0 до 1. Разделите несколько дробей, используя запятые.
В поле диапазон для дробной части функциивведите доли от общего числа компонентов, которые следует использовать при построении каждой группы квантилей. Функции выбираются случайным образом.

Каждая дробь должна быть числом от 0 до 1; Разделите несколько дробей с помощью запятых.
В разделе диапазон для дробной частиукажите часть функций, которые следует использовать в каждой группе квантилей. Фактически используемые функции выбираются случайным образом.

Каждая дробь должна быть числом от 0 до 1; Разделите несколько дробей с помощью запятых.
В поле количество образцов, используемое для оценки квантилей, укажите, сколько выборок следует вычислить при оценке квантилей. Если ввести число, превышающее число доступных выборок, используются все примеры.
В поле обязательные значения квантилейвведите разделенный запятыми список квантилей, для которого должна быть обучена модель. Например, если требуется создать модель, которая оценивает квартилей, введите "0,25, 0,5, 0,75
В поле Начальное число случайных чиселвведите значение для заполнения генератора случайных чисел, используемого моделью. Начальное значение полезно использовать для воспроизведения повторяющихся запусков.

По умолчанию значение равно 0, то есть выбирается случайное начальное значение.
Установите флажок Разрешить неизвестные значения для признаков категорий, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах данных.

Если этот параметр отключить, модель сможет принимать только значения, содержащиеся в данных для обучения.

При выборе этого параметра модель может быть менее точной для известных значений, но она может предоставлять лучшие прогнозы для новых (неизвестных) значений.
Подключение набор данных для обучения, выберите столбец метка и соедините модуль параметры настройки модели .

Примечание

Не используйте модель обучения. Если вы настроили диапазон параметров, но обучить его с помощью функции обучения модели, он использует только первое значение из списка диапазонов параметров.
Запустите эксперимент.

Результаты

После завершения обучения:

Чтобы просмотреть конечные параметры оптимизированной модели, щелкните правой кнопкой мыши выход Параметры настройки модели и выберите команду визуализировать.

Примеры

Примеры использования этого модуля см. в Коллекция решений ии Azure:

Регрессия квантилей: демонстрируется построение и интерпретацию модели регрессии квантилей с помощью набора данных авто Price.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

модуль регрессии квантилей в быстром лесу в Машинное обучение является реализацией случайной квантилей регрессии с помощью деревьев принятия решений. Случайные леса могут помочь избежать чрезмерно близкой подгонки, которая встречается при использовании деревьев принятия решений. Дерево принятия решений — это древовидная блок-схема, в которой на каждом внутреннем узле принимается решение, какой из двух дочерних узлов использовать дальше на базе значения одной из функций на входе.

Значение возвращается в каждом листовом узле. На внутренних узлах решение основывается на тесте "x ≤ v", где x — это значение функции во входном образце, а v — одно из возможных значений этой функции. Функции, которые могут создаваться с помощью дерева регрессии, представляют собой кусочные функции-константы.

В случайном лесу ансамблей деревьев создается с помощью баггинг, чтобы выбрать подмножество случайных выборок и функций обучающих данных, а затем вписать дерево принятия решений в каждое подмножество данных. В отличие от алгоритма случайного леса, который вычисляет среднее значение на основе выходных данных всех деревьев, модель Быстрая квантильная регрессия леса сохраняет все прогнозируемые метки в деревьях, указанных в параметре Количество квантильных выборок, и выводит распределение. Таким образом, пользователь может просмотреть значения квантиля для данного экземпляра.

Дополнительные сведения о регрессии квантилей см. в следующих книгах и статьях:

Квантильные регрессионные леса. Николай Майнсхаузен (Nicolai Meinshausen)

http://jmlr.org/papers/volume7/meinshausen06a/meinshausen06a.pdf
Случайные леса. Лео Брейман (Leo Breiman).

https://rd.springer.com/article/10.1023%2FA%3A1010933404324

Параметры модуля

Имя	Type	Диапазон	Необязательно	Описание	Значение по умолчанию
Создание режима учителя	CreateLearnerMode	List:единственный параметр\|диапазон параметров	Обязательно	Единственный параметр	Создание дополнительных параметров обучаемого
Количество деревьев	Целое число		mode:единственный параметр	100	Укажите количество создаваемых деревьев
Количество листьев	Целое число		mode:единственный параметр	20	Укажите максимальное количество листьев каждого дерева. Значение по умолчанию — 20
Минимальное количество обучающих экземпляров, необходимая для формирования листа	Целое число		mode:единственный параметр	10	Указывает минимальное количество обучающих экземпляров, необходимых для формирования листа
Доля бэггинга	Float		mode:единственный параметр	0.7	Указывает долю учебных данных для каждого дерева
Доля функций	Float		mode:единственный параметр	0.7	Указывает долю функций для каждого дерева (выборка осуществляется случайным образом)
Доля разбиения	Float		mode:единственный параметр	0.7	Указывает долю функций для каждого разбиения (выборка осуществляется случайным образом)
Количество квантильных выборок	Целое число	Максимум: 2147483647	mode:единственный параметр	100	Указывает количество экземпляров, используемых в каждом узле для оценки квантилей
Квантили для оценки	Строка		mode:единственный параметр	"0,25; 0,5; 0,75"	Указывает квантиль для оценки
Начальное значение случайного числа	Целое число		Необязательно		Укажите начальное значение для генератора случайных чисел, используемого моделью. Оставьте пустым, чтобы использовать значение по умолчанию.
Разрешить неизвестные категориальные уровни	Логическое		Обязательно	Да	Если значение — true, создайте дополнительный уровень для каждого столбца категорий. Этот дополнительный уровень сопоставляется уровням проверочного набора данных, недоступным в учебном наборе данных.
Максимальное количество листьев каждого дерева	ParameterRangeSettings	[16; 128]	mode:диапазон параметров	глубин 32; 64	Укажите диапазон максимально допустимого количества листьев для дерева
Количество созданных деревьев	ParameterRangeSettings	[1; 256]	mode:диапазон параметров	глубин 32; 64	Укажите диапазон максимального количества деревьев, которые можно создать во время обучения
Минимальное число выборок для конечного узла	ParameterRangeSettings	[1;10]	mode:диапазон параметров	одного 5.0 штук	Укажите диапазон минимального количества случаев, требующихся для формирования листа
Диапазон доли бэггинга	ParameterRangeSettings	[0,25; 1,0]	mode:диапазон параметров	0,25; 0,5; 0,75	Указывает диапазон доли учебных данных для каждого дерева
Диапазон доли функций	ParameterRangeSettings	[0,25; 1,0]	mode:диапазон параметров	0,25; 0,5; 0,75	Указывает диапазон доли функций для каждого дерева (выборка осуществляется случайным образом)
Диапазон доли разбиения	ParameterRangeSettings	[0,25; 1,0]	mode:диапазон параметров	0,25; 0,5; 0,75	Указывает диапазон доли функций для каждого разбиения (выборка осуществляется случайным образом)
Количество выборок для оценки квантилей	Целое число		mode:диапазон параметров	100	Количество выборок для оценки квантилей
Необходимые значения квантилей	Строка		mode:диапазон параметров	"0,25; 0,5; 0,75"	Необходимое значение квантилей, используемое при очистке параметров

Выходные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ILearner	Необученная модель квантильной регрессии, которую можно подключить к модулям модели универсального обучения и модели перекрестной проверки.

См. также раздел

Регрессия

Last updated on 2019-05-06