Поделиться через


Двухклассовый Decision Jungle

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает модель двухклассовой классификации, используя алгоритм джунглей принятия решений.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль джунглях решений с двумя классами в Машинное обучение Studio (классическая модель) для создания модели машинного обучения, основанной на защищенном алгоритме обучения ансамблей, именуемом решением джунгли.

Модуль джунглях, принимающий два класса , возвращает обученный классификатор. Затем вы обучите эту модель с помеченным набором данных для обучения, используя параметры обучения модели или настройки модели. После этого обученная модель используется для прогнозирования.

Дополнительные сведения о джунгли решений

Джунгли решений — это недавнее расширение для лесов принятия решений. Джунгли решений состоят из ансамбля ациклические направленных графов принятия решений (DAG).

Джунгли принятия решений имеют следующие преимущества:

  • Позволяя ветвям дерева объединять, решение DAG, как правило, имеет меньший объем памяти и более высокую производительность обобщения, чем дерево принятия решений, хотя и затраты на более длительное время обучения.

  • Decision jungle — это непараметрические модели, которые могут представлять нелинейные границы принятия решений.

  • Они выполняют выбор признаков и классификацию и являются устойчивыми при наличии шумовых признаков.

Совет

Дополнительные сведения об исследовании этого алгоритма машинного обучения см. в разделе решение джунгли: компактный и многофункциональный модели для классификации (PDF-файл, доступный для загрузки).

Настройка джунглях принятия решений Two-Class

  1. Добавьте модуль джунглях решений из двух классов в эксперимент в студии (классическая модель).

  2. В качестве метода повторной выборки выберите метод, используемый для создания отдельных деревьев. Доступны методы бэггинга и репликации.

    • Баггинг: Выберите этот параметр, чтобы использовать баггинг, также называемый агрегированием начальной загрузки.

      Каждое дерево в принятии решений джунглях выводит распределение по Гауссу в качестве прогноза. Статистическая обработка заключается в поиске по Гауссу, первый из которых в два секунд соответствует моменту сочетания заданных по Гауссу, полученных отдельными деревьями.

    • Репликация: при репликации каждое дерево обучается на идентичных входных данных. Предикат разбиения, используемый для каждого узла дерева, определяется случайным образом, и деревья оказываются разными.

      дополнительные сведения см. в разделе леса принятия решений для Компьютерное зрение и анализа медицинских изображений. Криминиси и J. Шоттон. Springer Link 2013.

  3. Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.

    • Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучших параметров, оптимальные параметры можно найти, указав несколько значений, и с помощью модуля настройки модели настройте модель , чтобы найти оптимальную конфигурацию. Преподаватель выполняет итерацию по нескольким комбинациям указанных вами параметров и определяет сочетание значений, которые создают лучшую модель.

  4. Для параметра число DAG решенийукажите максимальное число диаграмм, которые могут быть созданы в ансамблей.

  5. Чтобы получить максимальную глубину DAG принятия решений, укажите максимальную глубину каждого графа.

  6. Для параметра Максимальная ширина DAG принятия решенийукажите максимальную ширину каждого графа.

  7. В разделе число этапов оптимизации на уровне решения DAGукажите количество итераций по данным, которые должны выполняться при создании каждой DAG.

  8. Установите флажок Разрешить неизвестные значения для функций категорий , чтобы создать группу для неизвестных значений в данных тестирования или проверки.

    Если отменить его выбор, модель сможет принимать только значения, содержащиеся в данных для обучения. В первом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.

  9. Добавьте к эксперименту набор данных с тегами и подключите один из обучающих модулей.

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.

    • Если для параметра Создать режим учителя задано значение Диапазон параметров, используйте модуль Настройка гиперпараметров модели.

    Примечание

    При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

    Если передать один набор значений параметров в модуль Настройка гиперпараметров модели, когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для ученика.

    Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

Результаты

После завершения обучения:

  • Чтобы использовать модель для оценки, подключите ее к модели оценки, чтобы спрогнозировать значения для новых входных примеров.

Примеры

Примеры использования джунгли решений в машинном обучении см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

Если у вас есть ограниченные данные или вы хотите максимально сокращать время, затрачиваемое на обучение модели, попробуйте использовать эти параметры.

Ограниченный обучающий набор

Если ваш обучающий набор невелик:

  • Создание джунглей решений с помощью большого количества DAG (например более 20).
  • Используйте параметр Фасовка для повторной выборки.
  • Указание большего количества действий оптимизации для каждого уровня DAG (например более 10 000).

Ограниченное время обучения

Если обучающий набор слишком велик, но время обучения ограничено:

  • Создайте джунгли решений с помощью меньшего количества DAG (например, 5–10).
  • Используйте параметр Репликация для повторной выборки.
  • Указание меньшего количества шагов оптимизации каждого слоя DAG (например, менее 2000).

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Метод повторной выборки Любой ResamplingMethod Фасовка Выберите метод повторной выборки
Количество DAG принятия решений >= 1 Целое число 8 Укажите количество графов принятия решений для создания набора
Максимальная глубина DAG решений >= 1 Целое число 32 Укажите максимальную глубину графов принятия решений в наборе
Максимальная ширина DAG решений >= 8 Целое число 128 Укажите максимальную ширину графов принятия решений в наборе
Число шагов оптимизации каждого слоя DAG принятия решений >= 1000 Целое число 2048 Указание числа шагов для оптимизации каждого уровня графов принятия решений
Разрешить неизвестные значения для категориальных признаков Любой Логическое значение True Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель бинарной классификации

См. также раздел

Классификация
Многоклассовые джунгли принятия решений
Список модулей в алфавитном порядке