Поделиться через


Двухклассовое увеличивающееся дерево принятия решений;

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает двоичный классификатор с помощью алгоритма повышенного дерева принятия решений.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль высококлассного дерева решений с двумя классами в Машинное обучение Studio (классическая модель) для создания модели машинного обучения на основе алгоритма повышенного дерева принятия решений.

Увеличивающееся дерево принятия решений — это метод совокупного обучения, в котором второе дерево исправляет ошибки первого, третье — ошибки первого и второго и т. д. Прогноз основан на полном ансамбле деревьев, которые его делают. Дополнительные технические сведения см. в разделе исследование этой статьи.

Как правило, при условии правильной настройке с помощью увеличивающихся деревьев принятия решений проще всего добиться максимальной производительности при решении широкого спектра задач машинного обучения. Однако они, как ученики, одни из самых требовательных к объему памяти. В текущей реализации они хранят в ней всю информацию, Таким образом, модель высокодоступного дерева решений может не иметь возможности обрабатывать очень большие наборы данных, которые могут обрабатываться некоторыми линейными учениями.

Настройка Two-Class увеличивающегося дерева принятия решений

Этот модуль создает необученную модель классификации. Поскольку классификация является контролируемым методом обучения, для обучения модели необходим набор данных с тегами, включающий столбец меток со значением для всех строк.

Этот тип модели можно обучить с помощью модулей « обучение модели » или « Настройка модели ».

  1. в Машинное обучение Studio (классическая модель) добавьте модуль повышенного дерева принятия решений в свой эксперимент.

  2. Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.

    • Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.

    • Диапазон параметров: если вы не знаете наилучшие параметры, оптимальные варианты можно найти с помощью модуля Настройка гиперпараметров модели. Вы предоставляете некоторый диапазон значений, и учитель выполняет итерацию по нескольким сочетаниям параметров, чтобы определить сочетание значений, которое дает наилучший результат.

  3. Максимальное количество листьев каждого дерева: указывает максимальное количество терминальных (листовых) узлов, которые могут быть созданы в любом дереве.

    Увеличив это значение, вы потенциально увеличите размер дерева и повысите точность, но это может привести к возникновению лжевзаимосвязей и более длительному времени обучения.

  4. Минимальное число выборок для конечного узла: укажите минимальное число вариантов, необходимых для создания любого терминального (листового) узла в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.

  5. Скорость обучения: введите число от 0 до 1, определяющее размер шага во время обучения.

    Скорость обучения определяет, насколько быстро или медленно выполняется схождение на оптимальном решении. Если размер шага слишком велик, вы можете выйти за пределы оптимального решения. Если размер шага слишком мал, обучение займет больше времени, чтобы прийти к наилучшему решению.

  6. Количество созданных деревьев: укажите общее число деревьев принятия решений, создаваемых в ансамбле. Создавая больше деревьев принятия решений, вы можете потенциально получить большее покрытие, но время на обучение при этом увеличится.

    Это значение также управляет количеством деревьев, отображаемых при визуализации обученной модели. Если требуется просмотреть или распечатать одно дерево, установите значение 1. Однако при этом создается только одно дерево (дерево с начальным набором параметров) и дальнейшие итерации не выполняются.

  7. В параметре Random number seed (Случайное начальное значение) введите неотрицательное целое значение, которое будет использоваться в качестве случайного начального значения. Указав начальное значение, вы обеспечите повторяемость между запусками, при которых используются одинаковые данные и параметры.

    В противном случае этому значению по умолчанию присваивается 0, а это означает, что начальное значение случайной последовательности определяется системным временем. Последовательные запуски с использованием случайного начального значения могут возвращать разные результаты.

  8. Установите флажок Разрешить неизвестные уровни категорий , чтобы создать группу для неизвестных значений в наборах для обучения и проверки.

    Если этот параметр отключить, модель сможет принимать только значения, содержащиеся в данных для обучения.

    Если вы разрешите неизвестные значения, модель может оказаться менее точной для известных значений, но, скорее всего, может предоставлять лучшие прогнозы для новых (неизвестных) значений.

  9. Обучение модели.

    • Если для одиночного параметра задан параметр Создать режим учителя, подключите набор данных с тегами и модуль Обучение модели.

    • Если для параметра Создать режим учителя выбран вариант Диапазон параметров, подключите набор помеченных данных и обучите модель с помощью модуля Настройка гиперпараметров модели.

    Примечание

    При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

    Если передать в модуль Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон для каждого параметра, он пропускает эти значения и использует значения по умолчанию для обучаемого объекта.

    Если выбран вариант Диапазон параметров и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время подбора параметров, даже если другие параметры меняются в диапазоне значений.

Результаты

После завершения обучения:

  • Чтобы просмотреть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши модуль обучение модели и выберите обзрительную модель для визуализации. При использовании параметров настройки моделищелкните правой кнопкой мыши модуль и выберите обученная лучшая модель для визуализации лучшей модели.

    Щелкните каждое дерево, чтобы получить подробные сведения о разбиении и просмотреть правила для каждого узла.

  • Чтобы использовать модель для оценки, подключите ее к модели оценки, чтобы спрогнозировать значения для новых входных примеров.

Примеры

Примеры использования увеличивающихся деревьев принятия решений в машинном обучении см. в Коллекция решений ии Azure:

  • Direct Marketing: использует алгоритм высококлассного дерева принятия решений для прогнозирования клиента стремления.

  • Прогноз задержки рейсов. в этом примере используется алгоритм высококлассного дерева принятия решений , определяющий, вероятнее ли задерживается перелет.

  • Риск кредитной карты. в этом примере для прогнозирования рисков используется алгоритм высококлассного дерева принятия решений с двумя классами .

Технические примечания

В этом разделе содержатся сведения о реализации и часто задаваемые вопросы.

Советы по использованию

  • Для обучения модели увеличивающегося дерева принятия решений необходимо предоставить несколько экземпляров данных. В процессе обучения создается ошибка, если набор данных содержит слишком мало строк.

  • Если в данных отсутствуют значения, необходимо добавить индикаторы для компонентов.

  • Как правило, повышенные деревья принятия решений дают лучшие результаты, если признаки в некоторой степени взаимосвязаны. Если функции имеют большую степень энтропии (т. е. они не связаны), они имеют небольшую или не имеющие никакой взаимной информации, а их порядок в дереве не дает большого количества прогнозных значимости. Если это не так, попробуйте использовать модель случайного леса.

    Увеличение также работает хорошо, когда у вас есть гораздо больше примеров, чем функции, так как модель подвержена перегонкам.

  • Не следует нормализовать набор данных. Так как обработка функций является простой, непараметрической, не меньше или больше, чем сравнение, нормализация или любая форма немонотонной функции преобразования может иметь небольшую силу.

  • Перед обучением признаки дискретизируются и сегментируются. Таким образом, даже для непрерывных признаков учитывается только относительно небольшой набор кандидатов на пороговое значение.

Сведения о реализации

Подробные сведения о алгоритме повышенного дерева принятия решений см. в разделе жадная функция аппроксимация — компьютеры, увеличивающие градиент.

алгоритм повышенного дерева принятия решений в Машинное обучение использует следующий метод повышения:

  1. Начните с пустой совокупности слабых учеников.

  2. Для каждого примера обучения получите текущие выходные данные совокупности. Это сумма выходных данных всех слабых учений в ансамблей.

  3. Вычислите градиент функции потери для каждого примера.

    Это зависит от того, является ли задача проблемой двоичной классификации или задачей регрессии.

    • Для модели двоичной классификации — это логарифмические потери, так же как и для модели логистической регрессии.

    • В модели регрессии используются квадратичные потери, а градиент представляет собой текущие выходные данные за вычетом целевых значений.

  4. Используйте примеры для размещения слабых сведенийоб использовании градиента, просто определенного в качестве целевой функции.

  5. Добавьте этот слабый ученик в совокупность с силой, определяемой скоростью обучения, и при необходимости перейдите к шагу 2.

    В этой реализации слабые знания представляют собой деревья регрессии с наименьшей квадратной шкалой на основе градиентов, вычисленных на шаге 3. Для деревьев действуют следующие ограничения:

    • Их обучают до достижения максимального количества листьев.

    • В каждом листе есть минимальное количество примеров, которые предотвращают возникновение лжевзаимосвязей.

    • Каждый узел решения — это один признак, который сравнивается с определенным пороговым значением. Если этот признак меньше порогового значения или равен ему, он направляется по одному пути, а если он превышает пороговое значение, то направляется по другому пути.

    • Каждый конечный узел является постоянным значением.

  6. Алгоритм создания дерева гридили выбирает функцию и пороговое значение, для которых разбиение уменьшает квадрат потери в отношении градиента, вычисленного на шаге 3. Выбор разбиения подчиняется минимальному количеству обучающих примеров на каждый конечный объект.

    Алгоритм многократно разделяется до достижения максимального числа конечных элементов или до тех пор, пока не будет доступен допустимый разделитель.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Максимальное количество листьев каждого дерева >= 1 Целое число 20 Укажите максимальное допустимое число листьев для дерева
Минимальное число выборок для конечного узла >= 1 Целое число 10 Укажите минимальное число случаев, требующихся для формирования листа
Скорость обучения [double.Epsilon;1,0] Float 0,2 Укажите начальную скорость обучения
Количество созданных деревьев >= 1 Целое число 100 Укажите максимальное число деревьев, которое можно создать во время обучения
Начальное значение случайного числа Любой Целое число Введите начальное значение для генератора случайных чисел, используемого моделью. Чтобы использовать значение по умолчанию, оставьте это поле пустым.
Разрешить неизвестные категориальные уровни Любой Логическое значение True Если значение true, для каждого категориального столбца создается дополнительный уровень. Все уровни в тестовом наборе данных, недоступные в обучающем наборе, сопоставляются с этим дополнительным уровнем.

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель бинарной классификации

См. также раздел

Классификация
Регрессия с помощью увеличивающегося дерева принятия решений
Список модулей в алфавитном порядке