Поделиться через


Мультиклассовое увеличивающееся дерево принятия решений

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Используйте этот компонент для создания модели машинного обучения, основанной на алгоритме усиленных деревьев принятия решений.

Увеличивающееся дерево принятия решений — это метод совокупного обучения, в котором второе дерево исправляет ошибки первого, третье — ошибки первого и второго и т. д. Прогнозы основаны на совокупности деревьев вместе.

Порядок настройки

Этот компонент создает необученную модель классификации. Поскольку классификация — это метод обучения с учителем, вам понадобится помеченный набор данных, который включает столбец метки со значением для всех строк.

Вы можете обучить этот тип модели, используя Модель обучения.

  1. Добавьте в конвейер компонент Мультиклассовое увеличивающееся дерево принятия решений.

  2. Укажите, как вы хотите обучать модель, выбрав параметр Создать режим учителя.

    • Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.

    • Диапазон параметров: используйте этот вариант, если вы не знаете наилучшие параметры и хотите выполнить перебор параметров. Выберите диапазон значений для итерации и в процессе Настройка гиперпараметров модели выполните итерацию по всем возможным сочетаниям указанных параметров, чтобы определить гиперпараметры, которые приводят к оптимальным результатам.

  3. Максимальное количество листьев в дереве ограничивает максимальное количество конечных узлов (листьев), которые могут быть созданы в любом дереве.

    Увеличивая это значение, вы потенциально увеличиваете размер дерева и достигаете более высокой точности с риском переобучения и увеличения времени обучения.

  4. Минимальное количество выборок на листовой узел указывает количество случаев, необходимых для создания любого конечного узла (листа) в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при значении по умолчанию 1 даже один случай может привести к созданию нового правила. Если увеличить значение до 5, данные обучения должны содержать по крайней мере пять случаев, которые соответствуют тем же условиям.

  5. Скорость обучения определяет размер шага во время обучения. Введите число от 0 до 1.

    Скорость обучения определяет, насколько быстро или медленно ученик приходит к оптимальному решению. Если размер шага слишком велик, вы можете пропустить оптимальное решение. Если размер шага слишком мал, обучение займет больше времени, чтобы прийти к наилучшему решению.

  6. Количество созданных деревьев указывает общее количество деревьев решений, которые необходимо создать в ансамбле. Создавая больше деревьев принятия решений, вы можете получить лучшее покрытие, но время обучения увеличится.

  7. Начальное значение случайного числа необязательно задает неотрицательное целое число, которое будет использоваться в качестве значения случайного начального числа. Указав начальное значение, вы обеспечите повторяемость между запусками, при которых используются одинаковые данные и параметры.

    Случайное начальное число по умолчанию равно 42. Последовательные прогоны с использованием разных случайных начальных чисел могут иметь разные результаты.

  8. Обучение модели:

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, подключите отмеченный набор данных и компонент Обучение модели.

    • Если для параметра Create trainer mode выбран вариант Parameter Range, подключите набор помеченных данных и обучите модель с помощью модуля Настройка гиперпараметров модели.

    Примечание.

    При передаче диапазона параметров в модуль Обучение модели используется только значение по умолчанию в списке с одиночным параметром.

    Если передать в компонент Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон настроек для каждого параметра, он проигнорирует эти значения и использует значения по умолчанию для средства обучения.

    Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.