Поделиться через


Модель перекрестной проверки

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Перекрестно проверяет оценки параметров для моделей классификации или регрессии путем секционирования данных

категория: Машинное обучение/оценка

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль перекрестной проверки модели в Машинное обучение Studio (классическая модель). Перекрестная проверка является важной методикой, часто используемой в машинном обучении для оценки вариативности набора данных и надежности любой модели, обученной с помощью этих данных.

Модуль перекрестной проверки модели принимает в качестве входных данных элемент DataSet с меткой, а также модель обученной классификации или регрессии. Он делит набор данных на некоторое количество подмножеств (сверток), создает модель по каждой из сверток, а затем возвращает набор статистик точности для каждой свертки. Сравнивая статистику точности для всех сверток, можно интерпретировать качество набора данных и понять, является ли модель уязвимой для вариаций в данных.

Перекрестная проверка также возвращает прогнозируемые результаты и вероятности для набора данных, что позволяет оценить надежность прогнозов.

Принцип работы перекрестной проверки

  1. Перекрестная проверка случайным образом разделяет обучающие данные на несколько секций, называемых также сложениями.

    • Если вы ранее не секционировали определенный набор данных, по умолчанию алгоритм создает 10 сверток.
    • Чтобы разделить набор данных на другое число сверток, можно использовать модуль Секционирование и выборка и указать, сколько сверток следует использовать.
  2. Модуль устанавливает данные в сторону 1, чтобы использовать их для проверки (иногда это называется контрольным сгибом), и использует оставшиеся свертки для обучения модели.

    Например, если вы создадите пять сверток, модуль создаст пять моделей во время перекрестной проверки, каждая модель обучена в 4/5 данных и проверила на оставшиеся 1/5.

  3. Во время тестирования модели для каждого из сверток вычисляется несколько статистических данных о точности. Используемая статистика зависит от типа модели, которую вы оцениваете. Для вычисления моделей классификации и моделей регрессии используются различные статистические данные.

  4. По завершении процесса сборки и оценки для всех сверток модель перекрестной проверки создает набор метрик производительности и оценки результатов для всех данных. Вы должны просмотреть эти метрики, чтобы узнать, имеет ли один сгиб большую или низкую точность.

Преимущества перекрестной проверки

Другой и очень распространенный способ оценки модели — разделение данных на обучающий и проверочный наборы с помощью разбиения данных, а затем проверка модели на обучающие данные. Однако перекрестная проверка предлагает некоторые преимущества:

  • При перекрестной проверке используется больше тестовых данных.

    Перекрестная проверка измеряет производительность модели с указанными параметрами в большем пространстве данных. То есть перекрестная проверка использует весь обучающий набор данных как для обучения, так и для оценки, а не для какой-либо части. Напротив, обычно при проверке модели с использованием данных, полученных при случайном разбиении, для оценки модели используется не более 30 % доступных данных.

    Тем не менее, так как перекрестная проверка и проверка модели выполняется несколько раз над большим набором данных, это значительно больше вычислительных ресурсов и занимает гораздо больше времени, чем проверка случайного разбиения.

  • Перекрестная проверка оценивает набор данных, а также модель.

    Перекрестная проверка не просто измеряет точность модели, но также дает представление о том, как репрезентативно представлять набор данных и насколько важна модель для вариаций в данных.

Использование перекрестной проверки модели

Существует два основных способа использования перекрестной проверки.

Выполнение перекрестной проверки может занять много времени, если используется большой объем данных. Таким образом, можно использовать перекрестную проверку модели на начальном этапе создания и тестирования модели, чтобы оценить значение параметров модели (если время вычисления — приемлемой), а затем обучить и оценить модель с помощью установленных параметров в модели обучения и оценки модулей модели .

Простая перекрестная проверка

В этом сценарии вы как обучать, так и тестировать модель с помощью перекрестной проверки модели.

  1. Добавьте модуль Перекрестная проверка модели в эксперимент. его можно найти в Машинное обучение Studio (классическая модель) в категории Машинное обучение в разделе оценка.

  2. Подключение выходные данные любой модели классификации или регрессии .

    Например, если для классификации используется два станка для проверки подлинности класса, настройте модель с нужными параметрами, а затем перетащите соединитель из порта обученной модели классификатора в соответствующий порт модели перекрестной проверки.

    Совет

    Модель не должна быть обучена, поскольку модель перекрестной проверки автоматически обучает модель как часть оценки.

  3. В параметре порт набора данных для модели перекрестной проверкиПодключите набор обучающих данных с метками.

  4. На панели Свойстваперекрестной проверки моделищелкните запустить селектор столбцов и выберите один столбец, содержащий метку класса, или прогнозируемое значение.

  5. Задайте значение для параметра случайного начального значения , если требуется возможность повторить результаты перекрестной проверки между последовательными выполнениями для одних и тех же данных.

  6. Запустите эксперимент.

  7. Описание отчетов см. в разделе Результаты.

    Чтобы получить копию модели для повторного использования, щелкните правой кнопкой мыши выходные данные модуля, который содержит алгоритм (например, 2-я Многоклассовый компьютер с точкой Байеса), и выберите команду Сохранить как обученную модель.

Перекрестная проверка с очисткой параметров

В этом сценарии используется Настройка параметров модели для поиска лучшей модели с помощью очистки параметров, а затем используется Перекрестная проверка модели для проверки ее надежности. это самый простой способ получить Машинное обучение выяснить наилучшую модель, а затем создать для нее метрики.

  1. Добавьте набор данных для обучения модели и добавьте один из модулей машинного обучения, который создает модель классификации или регрессии.

  2. Добавьте модуль настройки модели в эксперимент. его можно найти в категории Машинное обучение в разделе обучение.

  3. Присоедините модель классификации или регрессии к неклассифицированной модели вводапараметров настройки модели.

  4. Добавьте модуль Перекрестная проверка модели в эксперимент. его можно найти в Машинное обучение Studio (классическая модель) в категории Машинное обучение в разделе оценка.

  5. Перейдите к обучению лучших выходных данных модели Настройка параметров моделии соедините их с необучением входными данными модели перекрестной проверки.

  6. Подключение обучающие данные в набор обучающих данных для модели перекрестной проверки.

  7. Запустите эксперимент.

  8. После просмотра результатов и оценок оценки, чтобы получить копию лучшей модели для последующего повторного использования, просто щелкните правой кнопкой мыши модуль Настройка параметров модели , выберите пункт обученная лучшая модель, а затем нажмите кнопку Сохранить как обученную модель.

Примечание

Вы можете получить разные результаты, если используете входные данные в модуле " Настройка модели " для необязательной проверочного набора данных.

Это связано с тем, что при использовании этого параметра вы фактически указываете статический набор данных для обучения и проверочный набор данных. Таким образом, процесс перекрестной проверки также использует указанные наборы обучающих и проверочных данных, а не разделяет данные на n групп для обучения и тестирования. Однако метрики создаются по принципу « n-fold».

Результаты

После завершения всех итераций модель перекрестной проверки создает оценки для всего набора данных, а также метрики производительности, которые можно использовать для оценки качества модели.

Оцененные результаты

Первый вывод модуля предоставляет исходные данные для каждой строки, а также некоторые прогнозируемые значения и связанные с ними вероятности.

Чтобы просмотреть эти результаты, в эксперименте щелкните модуль перекрестной проверки модели правой кнопкой мыши, выберите оцененные результатыи щелкните визуализировать.

Имя нового столбца Описание
Присваивания сгиба Указывает индекс, отсчитываемый от нуля, для каждой строки данных, присвоенный во время перекрестной проверки.
Оцененные метки Этот столбец добавляется в конец набора данных и содержит прогнозируемое значение для каждой строки.
Оцененные вероятности Этот столбец добавляется в конец набора данных и указывает предполагаемую вероятность значения в вычисляемых метках.

Результаты оценки

Второй отчет сгруппирован по сверткам. Помните, что во время выполнения модель перекрестной проверки случайным образом разделяет обучающие данные на n (по умолчанию 10). В каждом проходе по набору данных модель перекрестной проверки использует один сгиб в качестве проверочного набора данных и использует оставшиеся сгибы n-1 для обучения модели. Каждая из n моделей проверяется по данным из других сверток.

В этом отчете свертки перечисляются по значению индекса в возрастающем порядке. Чтобы упорядочить данные в любом другом столбце, можно сохранить результаты в виде набора данных.

Чтобы просмотреть эти результаты, в эксперименте щелкните модуль Перекрестная проверка модели правой кнопкой мыши, выберите результаты оценки по сгибуи нажмите кнопку визуализировать.

Имя столбца Описание
Номер свертки Идентификатор для каждой свертки. Если было создано 5 сверток, будет иметь 5 подмножеств данных с номерами от 0 до 4.
Количество примеров в свертке Количество строк, назначенных каждой свертке. Они должны быть примерно одинаковыми.
Моделирование Алгоритм, используемый в модели и определяемый именем API.

Кроме того, для каждого из сверток включаются следующие метрики в зависимости от типа модели, которую вы оцениваете.

  • Модели классификации: точность, отзыв, F-Оценка, AUC, средняя утрата журнала, курсовая утрата журнала

  • Модели регрессии: отрицательная вероятность журнала, средняя абсолютная ошибка, среднее значение ошибки в корне, относительная абсолютная ошибка и коэффициент определения

Примеры

Примеры использования перекрестной проверки в машинном обучении см. в Коллекция решений ии Azure:

Технические примечания

  • Рекомендуется нормализовать наборы данных перед их использованием для перекрестной проверки.

  • Поскольку Перекрестная проверка модели обучает и проверяет модель несколько раз, она гораздо более требовательна к вычислительным операциям и занимает больше времени, чем при проверке модели с помощью набора данных с произвольным разделением.

  • Рекомендуется использовать перекрестную проверку модели для определения качества модели при заданных параметрах. Используйте Параметры настройки модели для поиска оптимальных параметров.

  • При использовании кросс-проверки для измерения точности модели нет необходимости разбивать набор данных на обучающие и проверочные наборы.

    Однако если проверочный набор данных предоставляется в качестве вышестоящего, модуль использует заданные обучающие и проверочные наборы данных, а не разделяет их на n . Это значит, что первый набор данных используется для обучения модели по каждому сочетанию параметров, и модели оцениваются на проверочном наборе данных. См. раздел об использовании очистки параметров с перекрестной проверкой.

  • несмотря на то, что в этой статье используются старые версии модулей, имеется хорошее объяснение процесса перекрестной проверки: выбор параметров для оптимизации алгоритмов в Машинное обучение

Ожидаемые входные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель для перекрестной проверки на наборе данных
Dataset Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Столбец метки any Выбор столбцов Выберите столбец, содержащий метку, используемую для проверки
Случайное начальное значение any Целочисленный тип 0 Начальное значение для генератора случайных чисел

Это необязательное значение. Если не указано

Выходные данные

Имя Тип Описание
Оцененные результаты Таблица данных Результаты оценки
Результаты проверки по свертке Таблица данных Результаты проверки (по свертке и общие)

Исключения

Исключение Описание
Ошибка 0035 Исключение возникает, если для данного пользователя или элемента не были предоставлены какие-либо признаки.
Ошибка 0032 Исключение возникает, если аргумент не является числом.
Ошибка 0033 Исключение возникает, если аргумент — бесконечность.
Ошибка 0001 Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0006 Исключение возникает, если значение параметра больше или равно определенному значению.
Ошибка 0008 Исключение возникает, если параметр находится за пределами диапазона.
Ошибка 0013 Исключение возникает при передаче в модуль неверного типа ученика.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Вычислить
Оценка рекомендателя
Список модулей в алфавитном порядке