Оценка важности признаков путем перестановок

В этой статье описывается, как использовать в конструкторе Машинного обучения Azure компонент для оценки важности признаков путем перестановок, чтобы вычислять соответствующие показатели для наборов данных. Используйте эти показатели при определении наиболее подходящих признаков для модели.

При использовании этого компонента значения признаков случайным образом перемещаются, по одному столбцу за раз. Эффективность модели измеряется до и после. Для измерения производительности вы можете выбрать одну из стандартных метрик.

Показатели, которые возвращаются компонентом, демонстрируют изменение производительности обученной модели после перестановки. Важные признаки обычно более чувствительны к перестановке, поэтому они демонстрируют более высокие показатели важности.

В статье Оценка важности признаков путем перестановок приводятся общие сведения о перестановке признаков, ее теоретической основе и применении в Машинном обучении.

Использование компонента для оценки важности признаков путем перестановок

Для создания набора показателей признаков требуется уже обученная модель, а также тестовый набор данных.

  1. Добавьте в свой конвейер компонент для оценки важности признаков путем перестановок. Этот компонент можно найти в категории Выбор компонентов.

  2. Подключите обученную модель к левому входу. Модель должна быть моделью регрессии или моделью классификации.

  3. На правом входе подключите набор данных. Желательно выбрать набор данных, отличный от того, который использовался для обучения модели. Этот набор данных используется для вычисления показателей на основе обученной модели. Он также используется для оценки модели после изменения значений признаков.

  4. В поле Случайное начальное значение введите значение, которое будет использоваться в качестве начального значения для рандомизации. Если указать значение "0" (по умолчанию), то число будет сгенерировано на основе системных часов.

    Начальное значение является необязательным, но его необходимо указать, если требуется воспроизводимость между запусками одного и того же конвейера.

  5. В поле Метрика для измерения производительности выберите одну метрику, которая будет использоваться для вычисления качества модели после перестановки.

    Конструктор Машинного обучения Azure поддерживает следующие метрики в зависимости от того, выполняется ли оценка модели классификации или регрессии:

    • Классификация

      Правильность, точность, полнота

    • Регрессия

      Точность, полнота, средняя абсолютная погрешность, среднеквадратическая абсолютная погрешность, относительная абсолютная погрешность, относительная среднеквадратическая погрешность и коэффициент детерминации

    Более подробное описание этих метрик оценки и их вычисления см. в разделе Оценка модели.

  6. Отправьте конвейер.

  7. Компонент выведет список столбцов признаков и связанные с ними показатели. Список ранжирован в порядке убывания показателей.

Технические примечания

При оценке важности признаков путем перестановок значения каждого столбца признаков изменяются случайным образом (по одному столбцу за раз). Затем модель оценивается.

Ранжирование, выполняемое этим компонентом, часто отличается от результатов выбора признаков на основе фильтра. При выборе признаков на основе фильтра показатели вычисляются перед созданием модели.

Отличие обусловлено тем, что при оценке важности признаков путем перестановок не измеряется связь между признаком и целевым значением. Вместо этого вычисляется, насколько сильно каждый признак влияет на прогнозы модели.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.