Поделиться через


Двухклассовый лес принятия решений

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает модель двухклассовой классификации, используя алгоритм леса принятия решений.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль леса решений с двумя классами в Машинное обучение Studio (классическая модель) для создания модели машинного обучения на основе алгоритма лесов принятия решений.

Леса принятия решений — это быстрые контролируемые коллективные модели. Этот модуль хорошо подходит для прогнозирования целевого значения с числом результатов до двух. Если вы не знаете, как настроить модель дерева принятия решений для получения наилучших результатов, мы рекомендуем использовать модуль Настройка модели параметры для обучения и тестирования нескольких моделей. Настройка выполняет перебор нескольких возможностей и находит оптимальное решение.

Основные сведения о лесах принятия решений

Этот алгоритм леса принятия решений представляет собой метод коллективного обучения, предназначенный для задач классификации. Коллективные методы основаны на общем принципе, согласно которому вместо применения одной модели лучшие результаты и более обобщенную модель можно получить путем создания нескольких связанных моделей и их объединения определенным образом. Вообще говоря, коллективные модели обеспечивают большее покрытие и точность, чем одно дерево принятия решений.

Создавать отдельные модели и объединять их можно разными способами. Данная конкретная реализация леса принятия решений работает путем создания нескольких деревьев решений и последующего голосования за наиболее популярный выходной класс. Голосование — один из наиболее известных методов получения результатов с помощью коллективной модели.

  • Отдельные деревья классификации создаются на основе единого набора данных, но разными (обычно случайными) начальными точками. Это отличается от подхода на основе случайного леса, в рамках которого отдельные деревья принятия решений используют только некоторую произвольную часть данных или признаков.
  • Каждое дерево в лесу принятия решений выводит гистограмму меток ненормализованной частоты.
  • Процесс статистической обработки суммирует эти гистограммы и нормализует результат, чтобы получить "вероятностные" для каждой метки.
  • Деревья с высокой достоверностью прогноза будут иметь больший вес при принятии окончательного коллективного решения.

Деревья принятия решений в целом обладают множеством преимуществ с точки зрения задач классификации:

  • Они могут охватывать нелинейные границы принятия решений.
  • Для обучения и прогнозирования можно применять большие объемы данных, так как они эффективно выполняют вычисления и используют память.
  • Выбор признаков интегрирован в процессы обучения и классификации.
  • Деревья могут поддерживать шумы данных и многие функции.
  • Это непараметрические модели, то есть они могут выполнять обработку данных с различными распределениями.

При этом для простых деревьев принятия решений возможно переобучение на основе данных, и они менее пригодны к обобщению, чем совокупности деревьев.

Дополнительные сведения см. в разделе леса принятия решенийили в других документах, перечисленных в статье Технические примечания .

Настройка леса Two-Class принятия решений

  1. добавьте модуль леса решений из двух классов в эксперимент в Машинное обучение Studio (классическая модель) и откройте панель свойств модуля.

    Этот модуль можно найти в разделе Машинное обучение. Разверните узел Инициализация, а затем — Классификация.

  2. В качестве метода повторной выборки выберите метод, используемый для создания отдельных деревьев. Доступны методы бэггинга и репликации.

    • Бэггинг: также называется агрегированием начальной загрузки. В рамках этого метода каждое дерево создается на основе новой выборки, получаемой случайным образом из исходного набора данных с постепенной заменой до тех пор, пока размер набора данных не достигнет исходного.

      Выходные данные моделей объединяются функцией голосования, которая является разновидностью агрегирования. Каждое дерево в лесу решения классификации выводит гистограмму с ненормализованной частотой для меток. Агрегирование состоит в том, чтобы суммировать эти гистограммы и нормалисе, чтобы получить «вероятностные» для каждой метки. В результате деревья с высокой достоверностью прогноза будут иметь больший вес при принятии окончательного коллективного решения.

      Дополнительные сведения см. в записи Википедии о бутстрэп-агрегировании.

    • Репликация: при репликации каждое дерево обучается на идентичных входных данных. Предикат разбиения, используемый для каждого узла дерева, определяется случайным образом, и деревья оказываются разными.

      Дополнительные сведения о процессе обучения с помощью параметра replicate см. в документах, перечисленных в разделе Технические примечания .

  3. Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.

    • Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучших параметров, оптимальные параметры можно найти, указав несколько значений, и с помощью модуля настройки модели настройте модель , чтобы найти оптимальную конфигурацию. Преподаватель выполняет перебор нескольких сочетаний указанных вами параметров и определяет сочетание значений, которые создают лучшую модель.

  4. Число деревьев принятия решений: введите максимальное число деревьев, которые могут быть созданы в совокупности. Создавая больше деревьев принятия решений, можно расширить покрытие, но время на обучение при этом увеличится.

    Примечание

    Это значение также управляет количеством деревьев, отображаемых при визуализации обученной модели. Если требуется просмотреть или распечатать одно дерево, можно задать значение 1. то создается только одно дерево (с начальным набором параметров) и дальнейшие итерации не выполняются.

  5. Максимальная глубина деревьев принятия решений: введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.

  6. Число случайных разбиений на узел: введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что признаки на каждом уровне дерева (узле) распределяются случайным образом.

  7. Минимальное число выборок для конечного узла: укажите минимальное число вариантов, необходимых для создания любого терминального узла (листа) в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.

  8. Установите флажок Разрешить неизвестные значения для признаков категорий, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах данных. В этом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.

    Если этот параметр отключить, модель сможет принимать только значения, содержащиеся в данных для обучения.

  9. Прикрепите помеченный набор данных и один из обучающих модулей:

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.

    • Если для параметра создать режим инструктора задать значение диапазон параметров, используйте Параметры настройки модели.

    Примечание

    Если для обучения моделипередается диапазон параметров, то используется только первое значение в списке диапазонов параметров.

    Если передать в модуль Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон для каждого параметра, он пропускает эти значения и использует значения по умолчанию для обучаемого объекта.

    Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

Результаты

После завершения обучения:

  • Чтобы просмотреть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши модуль обучение модели и выберите обзрительную модель для визуализации. При использовании параметров настройки моделищелкните правой кнопкой мыши модуль и выберите обученная лучшая модель для визуализации лучшей модели.

    Щелкните каждое дерево, чтобы получить подробные сведения о разбиении и просмотреть правила для каждого узла.

  • Чтобы сохранить моментальный снимок модели, щелкните правой кнопкой мыши выходные данные обученной модели и выберите сохранить модель. Сохраненная модель не обновляется при последующих запусках эксперимента.

  • Чтобы использовать модель для оценки, добавьте модуль оценки модели в эксперимент.

Примеры

Примеры использования лесов принятия решений в машинном обучении см. в примерах экспериментов в Коллекция решений ии Azure:

  • Категоризация новостей. сравнивает Многоклассовый классификатор с моделью, построенной с помощью алгоритма леса решений , сопоставленного с Многоклассовый классификатор "один — все".

  • Диагностическое обслуживание. Расширенное пошаговое руководство, в котором используется алгоритм леса принятия решений с двумя классами для прогнозирования сбоя ресурса в течение определенного промежутка времени.

Технические примечания

В этом разделе содержатся дополнительные сведения о реализации, исследования и часто задаваемые вопросы.

Советы по использованию

Если у вас есть ограниченные данные или вы хотите максимально сокращать время, затрачиваемое на обучение модели, попробуйте следующие параметры:

Ограниченный обучающий набор

Если обучающий набор содержит ограниченное число экземпляров:

  • Создайте лес принятия решений с использованием большого количества деревьев (например более 20).
  • Используйте параметр Фасовка для повторной выборки.
  • Укажите большое число случайных разбиений для каждого узла (например, более 1000).

Ограниченное время обучения

Если обучающий набор содержит большое количество экземпляров, а время обучения ограничено:

  • Создайте лес принятия решений с помощью меньшего числа деревьев принятия решений (например 5–10).
  • Используйте параметр Репликация для повторной выборки.
  • Укажите меньшее число случайных разбиений для каждого узла (например меньше 100).

Сведения о реализации

В этой статье исследования Майкрософт предоставляют полезные сведения о методах ансамблей, использующих деревья принятия решений. От стумпс к деревьям в лесах.

дополнительные сведения о процессе обучения с помощью параметра Replicate см. в разделе леса принятия решений для Компьютерное зрение и анализа медицинских изображений. Криминиси и J. Шоттон. Springer Link 2013.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Метод повторной выборки Любой ResamplingMethod Фасовка Выберите метод повторной выборки
Число деревьев принятия решений >= 1 Целое число 8 Укажите число деревьев принятия решений, создаваемых в совокупности
Максимальная глубина деревьев принятия решений >= 1 Целое число 32 Укажите максимальную глубину любого дерева принятия решений, которое можно создать
Число случайных разбиений для каждого узла >= 1 Целое число 128 Укажите создаваемое для одного узла число разбиений, из которого выбирается оптимальное разбиение
Минимальное число выборок для конечного узла >= 1 Целое число 1 Указание минимального числа образцов обучения, необходимых для создания конечного узла
Разрешить неизвестные значения для категориальных признаков Любой Логическое значение True Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель бинарной классификации

См. также раздел

Классификация
Регрессия с использованием модели леса принятия решений
Мультиклассовый лес принятия решений
Список модулей в алфавитном порядке