Поделиться через


Оценка эффективности модели в Студии машинного обучения (классическая)

ОБЛАСТЬ ПРИМЕНЕНИЯ:применимо к:.Студия машинного обучения (классическая версия) не применяется к.Машинное обучение Azure

Внимание

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классической) можно будет использовать до 31 августа 2024 г.

Прекращается поддержка документации по Студии машинного обучения (классической). В будущем она может не обновляться.

В этой статье описываются метрики, которые можно использовать для мониторинга эффективности моделей в Студии машинного обучения (классическая). Оценка эффективности модели является одним из основных этапов процесса обработки и анализа данных. Она показывает, насколько успешно обученная модель обрабатывает (прогнозирует) набор данных. Оценка модели в Студии машинного обучения (классическая) базируется на двух основных модулях машинного обучения:

Эти модули позволяют видеть эффективность модели в пересчете на различные показатели, обычно используемые в машинном обучении и статистике.

Оценку моделей следует рассматривать наряду со следующими аспектами:

Доступны три стандартных сценария управляемого обучения:

  • регрессия
  • двоичная классификация;
  • классификация по нескольким классам.

Сравнение оценки и перекрестной проверки

Оценка и перекрестная проверка — это стандартные способы для измерения эффективности модели. Оба модуля генерируют показатели оценки, которые вы можете проверить или сравнить с показателями других моделей.

Оценка модели требует набор данных с оценками в качестве входных данных (или два, если вы хотите сравнить производительность двух разных моделей). Поэтому необходимо обучить модель с помощью модуля "Обучение модели " и сделать прогнозы по некоторым наборам данных с помощью модуля "Оценка модели ", прежде чем вы сможете оценить результаты. Оценка основана на оцененных метках и вероятностях вместе с истинными метками, все из которых выводятся модулем Оценка модели.

Кроме того, вы можете использовать перекрестную проверку, чтобы автоматически выполнить ряд операций "обучить-подсчитать-оценить" (10 сборок) для различных подмножеств входных данных. Входные данные делятся на 10 частей: одна резервируется для тестирования, а остальные 9 — для обучения. Этот процесс повторяется 10 раз, затем из показателей оценки выводится средняя величина. Эта процедура позволяет определить, насколько хорошо модель будет обобщаться на новых наборах данных. Модуль кросс-проверки модели принимает необученную модель и некоторый размеченный набор данных и выводит результаты оценки для каждого из 10 фолдов, а также усредненные результаты.

В следующих разделах мы создадим простые модели регрессии и классификации и оцените их производительность с помощью модулей оценки модели и кросс-проверки модели .

Оценка модели регрессии

Пусть стоит задача предсказать цену автомобиля, используя такие параметры, как размеры, мощность, характеристики двигателя и т. д. Это типичная проблема регрессии, где целевая переменная (цена) является непрерывным числовым значением. Можно подобрать простую модель линейной регрессии, которая позволит спрогнозировать цену автомобиля на основании значений его параметров. Эту модель регрессии можно использовать для подсчета того же набора данных, который использовался для обучения. Имея прогноз цен на все автомобили, мы сможем оценить эффективность модели. Для этого мы сравним, насколько прогнозы отличаются в среднем от фактических цен. Чтобы проиллюстрировать это, мы используем набор данных о ценах на автомобили (необработанный), доступный в разделе "Сохраненные наборы данных " в Студии машинного обучения (классическая модель).

Создание эксперимента

Добавьте следующие модули в рабочую область Студии машинного обучения (классическая):

Подключите порты, как показано на рисунке 1, и задайте для столбца Label модуля модели обученияцену.

Оценка модели регрессии

Рисунок 1. Оценка модели регрессии.

Проверка результатов оценки

После выполнения эксперимента можно щелкнуть выходной порт модуля "Оценка модели " и выбрать визуализацию , чтобы просмотреть результаты оценки. Метрики оценки, доступные для моделей регрессии: средняя абсолютная ошибка, корневая средняя абсолютная ошибка, относительная абсолютная ошибка, относительнаяквадратная ошибка и коэффициент определения.

Термин "ошибка" здесь означает разницу между прогнозируемым значением и истинным значением. Абсолютное значение или квадрат этой разницы обычно вычисляется, чтобы зафиксировать абсолютную величину ошибки во всех экземплярах, так как разница между прогнозируемым и истинным значением иногда может быть отрицательным числом. Показатели ошибки измеряют прогнозируемую эффективность модели регрессии с точки зрения среднего отклонения ее прогнозов от истинных значений. Чем ниже значения ошибок, тем более точно модель прогнозирует. Общий показатель ошибок 0 означает, что модель идеально подбирает данные.

Для определения способности модели подбирать данные также часто используется коэффициент детерминации, который также известен как R-квадрат. Его можно интерпретировать как пропорцию отклонений, которые объясняются моделью. В этом случае чем выше пропорция, тем лучше. Значение 1 означает идеальное совпадение.

Метрики оценки линейной регрессии

Рисунок 2. Показатели оценки линейной регрессии.

Использование перекрестной проверки

Как упоминалось ранее, вы можете автоматически выполнять повторную подготовку, оценивание и анализ с помощью модуля кросс-проверки модели. В этом случае вам нужен набор данных, необученная модель и модуль перекрестной проверки модели (см. рисунок ниже). Необходимо установить столбец метки на цену в свойствах модуля Перекрестная проверка модели.

Перекрестная проверка модели регрессии

Рисунок 3. Перекрестная проверка модели регрессии.

После выполнения эксперимента можно проверить результаты оценки, щелкнув правый порт вывода модуля перекрестной проверки модели . Вы увидите подробное представление показателей для каждой итерации (сборки) и усредненные результаты каждого из показателей (рис. 4).

Результаты перекрестной проверки модели регрессии

Рисунок 4. 4 Результаты перекрестной проверки модели регрессии.

Оценка модели двоичной классификации

При использовании двоичной классификации целевая переменная имеет только два возможных результата (например, {0, 1} или {ложь, истина}, {отрицательный, положительный}). Предположим, вы получили набор данных о работниках с некоторыми демографическими переменными и переменными их занятости. Вас просят предсказать уровень их доходов. Результат нужно выразить в виде двоичной переменной со значениями {"<=50 000", ">50 000"}. Иными словами, отрицательный класс представляет работников, которые зарабатывают меньше 50 000 в год, а положительный класс представляет всех остальных работников. Как и в сценарии с регрессией, мы должны обучить модель, посчитать некоторые данные и оценивать результаты. Основное отличие этого сценария — выбор метрик, которые вычисляет и выводит Студия машинного обучения (классическая). Чтобы проиллюстрировать сценарий прогнозирования уровня дохода, мы будем использовать набор данных Adult для создания эксперимента в Студии (классической) и оценки производительности модели двухклассовой логистической регрессии, которая часто используется как двоичный классификатор.

Создание эксперимента

Добавьте следующие модули в рабочую область Студии машинного обучения (классическая):

Подключите порты, как показано ниже на рисунке 5, и задайте для столбца Label модуля Train Model значение income.

Оценка модели двоичной классификации

Рисунок 5. Оценка модели двоичной классификации.

Проверка результатов оценки

После выполнения эксперимента можно щелкнуть выходной порт модуля "Оценка модели " и выбрать визуализацию , чтобы просмотреть результаты оценки (рис. 7). Метрики оценки, доступные для моделей двоичной классификации: точность, точность, отзыв, оценка F1 и AUC. Кроме того, модуль выводит матрицу ошибок, показывающую количество истинных положительных, ложных отрицательных, ложных положительных и истинных отрицательных значений, а также кривые ROC, точности и полноты и лифта.

Правильность выражается пропорцией правильно классифицированных экземпляров. Это, как правило, первый показатель, который вы видите во время оценки классификатора. Но если тестовые данные не сбалансированы (большинство экземпляров относятся к одному из классов) или вас больше интересует эффективность на одном из классов, правильность не будет отражать фактическую эффективность классификатора. Предположим, вы тестируете в сценарии классификации уровня дохода, данные, в которых 99 % экземпляров представляют людей, которые зарабатывают меньше или ровно 50 000 $ в год. Можно достичь уровня правильности 0,99, указав в прогнозе класс "<=50K" для всех экземпляров. Кажется, что классификатор в целом хорошо справляется с заданием, но в действительности он не смог правильно классифицировать ни одно из лиц с высоким уровнем дохода (1 %).

Поэтому будет целесообразно вычислить дополнительные показатели, которые фиксируют более конкретные аспекты оценки. Прежде чем углубляться в подробности таких показателей, важно понять матрицу неточностей оценки двоичной классификации. Метки классов в обучающем множестве могут принимать только два значения, обычно называемых положительным и отрицательным. Положительные и отрицательные экземпляры, которые классификатор прогнозирует правильно, называются истинно положительными (ИП) и истинно отрицательными (ИО) результатами соответственно. Точно так же неправильно классифицированные экземпляры называются ложно положительными (ЛП) и ложно отрицательными результатами (ЛО). Матрица неточностей — это таблица, которая показывает количество случаев, которые подпадают под каждую из этих четырех категорий. Студия машинного обучения (классическая) автоматически определяет, какой из двух классов в наборе данных является положительным классом. Если метки класса являются логическими константами или целыми числами, то экземпляры с метками "истина" или "1" присваиваются положительному классу. Если метки являются строками, как в случае с набором данных о доходах, метки сортируются в алфавитном порядке. Первый уровень присваивается отрицательному классу, а второй — положительному классу.

Матрица путаницы двоичной классификации

Рисунок 6. Матрица неточностей двоичной классификации.

Возвращаясь к проблеме классификации доходов, нужно задать несколько оценочных вопросов, которые помогут определить эффективность используемого классификатора. Вполне естественный вопрос: "Сколько лиц, которые по прогнозам модели зарабатывают >50 000 (ИП + ЛП), классифицированы правильно (ИП)?" Этот вопрос можно ответить, взглянув на точность модели, которая является пропорцией положительных результатов, которые классифицируются правильно: TP/(TP+FP). Другой распространенный вопрос: "Из всех высокооплачиваемых специалистов с доходом >50 000 (ИП + ЛП) скольких классификатор классифицировал правильно (ИП)?" Это фактически отзыв или истинная положительная скорость: TP/(TP+FN) классификатора. Вы могли заметить, что существует очевидный компромисс между точностью и полнотой. Например, обрабатывая относительно сбалансированный набор данных, классификатор, который прогнозирует в основном положительные экземпляры, будет иметь высокий уровень полноты, но довольно низкий уровень точности, так как многие отрицательные экземпляры будут неправильно классифицированы из-за большого количества ложно позитивных результатов. Чтобы узнать, как эти две метрики различаются, можно щелкнуть кривую PRECISION/RECALL на странице вывода результатов оценки (верхняя левая часть рис. 7).

Результаты оценки двоичной классификации

Рис. 7. Результаты оценки двоичной классификации.

Другая часто используемая связанная метрика — это показатель F1, который учитывает как точность, так и отзыв. Это среднее гармоническое этих 2 показателей, которое вычисляется так: F1 = 2 (точность x полнота) / (точность + полнота). Показатель F1 — удобный способ оценки одним числом. Но все-таки рекомендуется смотреть на точность и полноту вместе, чтобы лучше понять поведение классификатора.

Кроме того, можно проверить истинную положительную частоту и ложноположительную частоту в кривой ROC и соответствующую площадь под кривой (AUC). Чем ближе эта кривая к левому верхнему углу, тем выше эффективность классификатора. То есть речь идет о максимальном проценте истинно положительных результатов и минимальном проценте ложноположительных результатов. Кривые, близкие к диагонали графика, получаются из классификаторов, которые, как правило, делают прогнозы, близкие к случайному угадыванию.

Использование перекрестной проверки

Как и в примере регрессии, мы можем выполнить перекрестную проверку, чтобы многократно обучить, посчитать и оценить разные подмножества данных автоматически. Аналогичным образом мы можем использовать модуль Кросс-Проверки Модели, необученную модель логистической регрессии и набор данных. Столбец метки должен быть установлен на доход в свойствах модуля Cross-Validate Model. После выполнения эксперимента и нажатия правого порта вывода модуля Модуль перекрестной проверки модели, мы видим значения метрик двоичной классификации для каждого фолда, а также среднее и стандартное отклонение для каждого из них.

Перекрестная проверка модели двоичной классификации

Рис. 8. Перекрестная проверка модели двоичной классификации.

Результаты перекрестной проверки двоичного классификатора

Рис. 9. Результаты перекрестной проверки модели двоичной классификации.

Оценка модели классификации по нескольким классам

В этом эксперименте мы будем использовать популярный набор данных , содержащий экземпляры трех различных типов (классов) растения ирисов. Для каждого экземпляра существует 4 значения признаков: длина и ширина чашелистика, а также длина и ширина лепестка. В предыдущих экспериментах мы обучали и тестировали модели, используя одни и те же наборы данных. Здесь мы будем использовать модуль Split Data для того, чтобы создать два подмножества данных, выполнения обучения на первом и оценки и анализа на втором. Набор данных Iris доступен в репозитории машинного обучения UCI и может быть скачан с помощью модуля импорта данных .

Создание эксперимента

Добавьте следующие модули в рабочую область Студии машинного обучения (классическая):

Соедините порты, как показано на рисунке 10.

Задайте для индекса столбца Метки модуля "Обучение модели " значение 5. У этого набора данных нет строки заголовка, но мы знаем, что этикетки находятся в пятом столбце.

Щелкните модуль импорта данных и установите свойство источник данных на веб-URL через HTTP, а URL на http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data.

Задайте долю экземпляров, которые будут использоваться для обучения в модуле split Data (например, 0.7).

Оценка многоклассового классификатора

Рис. 10. Оценка классификатора с несколькими классами

Проверка результатов оценки

Запустите эксперимент и щелкните выходной порт Оценить модель. В этом случае результаты оценки представлены в виде матрицы неточностей. Матрица показывает фактические экземпляры в сравнении с прогнозируемыми для всех трех классов.

Результаты оценки многоклассовой классификации

Рис. 11. Результаты оценки классификации по нескольким классам.

Использование перекрестной проверки

Как упоминалось ранее, вы можете автоматически выполнять повторное обучение, оценивание и оценку с помощью модуля кросс-проверки модели. Вам потребуется набор данных, необученная модель и модуль перекрестной проверки модели (см. рисунок ниже). Необходимо снова задать столбец меток модуля Кросс-валидация модели (индекс столбца 5 в этом случае). После выполнения эксперимента и нажатия правого порта вывода модели перекрестной проверки можно проверить значения метрик для каждого свертывания, а также среднее и стандартное отклонение. Отображаемые здесь показатели похожи на показатели, о которых шла речь в разделе, посвященном двоичной классификации. Но в классификации по нескольким классам истинно положительные (отрицательные) результаты и ложноположительные (ложноотрицательные) результаты вычисляются путем подсчета на основе каждого класса, так как не существует общего положительного или отрицательного класса. Например, при расчете точности или полноты класса "Ирис щетинистый" предполагается, что это положительный класс, а все остальные являются отрицательными.

Перекрестная проверка модели многоклассовой классификации

Рис. 12. Перекрестная проверка модели классификации по нескольким классам.

Результаты перекрестной проверки модели многоклассовой классификации

Рис. 13. Результаты перекрестной проверки модели классификации по нескольким классам.