Поделиться через


Выбор параметров для оптимизации алгоритмов в Студии машинного обучения (классическая модель)

ОБЛАСТЬ ПРИМЕНЕНИЯ:Применимо к:Machine Learning Studio (классический) Не применяется к:Azure Machine Learning

Внимание

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.

Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.

В этой статье содержится информация о выборе правильного набора гиперпараметров для алгоритма в Студии машинного обучения (классическая). В большинстве алгоритмов машинного обучения есть параметры, которые необходимо настроить. При обучении модели необходимо задать значения для этих параметров. Эффективность обученной модели зависит от выбранных для нее параметров. Процесс определения оптимального набора параметров называется выбором модели.

Выбор модели осуществляется разными способами. В машинном обучении чаще всего используется перекрестная проверка, которая является одним из широко используемых методов выбора модели, — это механизм выбора модели по умолчанию в Студии машинного обучения (классическая). Так как в Студии машинного обучения (классическая) поддерживаются языки R и Python, всегда можно реализовать свой механизм выбора модели, используя либо R, либо Python.

Оптимальный набор параметров подбирается в четыре этапа.

  1. Определение пространства параметров. Сначала мы определяем точные значения параметров, которые будут учитываться алгоритмом.
  2. Определение параметров перекрестной проверки: Решите, как будут выбраны фолды перекрестной проверки для набора данных.
  3. Определение метрики. Также нужно выбрать метрику, которая будет использоваться для определения оптимального набора параметров, включая правильность, среднеквадратическую погрешность, точность, полноту и F-оценку.
  4. Обучение, оценка и сравнение. После этого для каждого уникального сочетания значений параметров на основе выбранной пользователем метрики погрешности выполняется перекрестная проверка. После оценки и сравнения можно выбрать оптимальную модель.

На следующем рисунке показано, как это осуществляется в Студии машинного обучения (классическая).

Поиск оптимального набора параметров

Определение пространства параметров

Набор параметров можно определить на этапе инициализации модели. На панели параметров всех алгоритмов машинного обучения доступны два режима обучения: Single Parameter (Один параметр) и Parameter Range (Диапазон параметров). Выберите режим с диапазоном параметров. В этом режиме каждому параметру можно присвоить несколько значений. В текстовое поле можно ввести разделенные запятыми значения.

Двухклассовое усиленное дерево решений с одним параметром

Или же можно с помощью параметра Use Range Builder (Использовать построитель диапазонов) можно определить минимальное, максимальное и общее число создаваемых в сетке точек. По умолчанию значения параметров отображаются на линейной шкале. Но если установлен флажок Log Scale (Логарифмическая шкала), значения будут отображаться на логарифмической шкале (т. е. соотношение соседних точек останется неизменным). Диапазон для целочисленных параметров можно определить с помощью дефиса. Например, значение "1–10" указывает, что набор параметров образован всеми целыми числами от 1 до 10 (включая крайние). Также поддерживается смешанный режим. Например, набор параметров "1–10, 20, 50" будет включать целые числа от 1 до 10, а также 20 и 50.

Двухклассовое увеличивающееся дерево принятия решений, диапазон параметров

Определите разбиения для перекрестной проверки

Модуль Partition and Sample (Секционирование и выборка) используется для случайного распределения слоев данных. В следующем примере конфигурации модуля мы определяем пять сверток и случайным образом присваиваем номер свертки экземплярам выборки.

Секционирование и выборка

Определение метрики

Модуль Tune Model Hyperparameters (Настройка гиперпараметров модели) позволяет эмпирически выбрать оптимальный набор параметров для заданного алгоритма и набора данных. Вместе с другими сведениями об обучении модели на панели свойств этого модуля доступна метрика, которая позволяет определить оптимальный набор параметров. На этой панели также есть два раскрывающихся списка для выбора алгоритмов классификации и регрессии. Если рассматривается алгоритм классификации, то метрика регрессии игнорируется и наоборот. В этом примере метрика — точность.

Параметры развертки

Обучение, оценка и сравнение

Тот же модуль настройки гиперпараметров модели обучает все модели, соответствующие набору параметров, оценивает разные метрики, а затем создает оптимально обученную модель на основе выбранной вами метрики. Для этого модуля необходимо обязательно предоставить следующие входные данные:

  • необученный ученик
  • набор данных.

Для модуля также можно указать дополнительный набор данных. Подключите набор данных с информацией о разбиениях к обязательному входу набора данных. Если для набора данных не назначены сведения о вариантах, по умолчанию будет автоматически выполняться 10-кратная перекрестная проверка. Если назначение перегибов не выполнено, а на дополнительный порт набора данных подан проверочный набор данных, выбирается режим обучения и тестирования, и первый набор данных используется для обучения модели с каждой комбинацией параметров.

Классификатор на основе усиленного дерева решений

Затем в проверочном наборе данных выполняется оценка модели. Левый порт вывода модуля отображает разные метрики как функции значений параметров. Правый порт вывода предоставляет обученную модель, которая соответствует наиболее эффективно работающей модели согласно выбранной метрике (в данном случае метрике точности).

Проверочный набор данных

Чтобы просмотреть выбранные параметры, визуализируйте правый порт вывода. Эту модель можно использовать для оценки проверочного набора или в рабочей веб-службе после сохранения обученной модели.