Модули выбора признаков

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описываются модули в Машинное обучение Studio (классическая модель), которые можно использовать для выбора компонентов.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Выбор компонентов — это важное средство машинного обучения. Машинное обучение Studio (классическая модель) предоставляет несколько методов для выполнения выбора компонентов. Выберите метод выбора компонентов в зависимости от типа данных и требований к примененному статистическому методу.

В этой статье рассматриваются следующие вопросы:

каждый модуль выбора компонентов в Машинное обучение Studio (классическая модель) использует набор данных как входные данные. Затем модуль применяет хорошо известные статистические методы к столбцам данных, предоставляемым как входные данные. Выходные данные представляют собой набор метрик, которые могут помочь определить столбцы, имеющие лучшее информационное значение.

О выборе компонентов

В машинном обучении и статистике Выбор компонентов — это процесс выбора подмножества релевантных, полезных функций, используемых при построении аналитической модели. Выбор компонентов позволяет сократить поле данных до наиболее ценных входов. Сокращение поля данных помогает уменьшить шум и повысить эффективность обучения.

Часто функции создаются из необработанных данных с помощью процесса проектирования признаков. Например, отметка времени сама по себе может не быть полезной для моделирования до тех пор, пока информация не будет преобразована в единицы дня, месяца или категории, относящиеся к проблеме, например праздники и рабочие дни.

Новые пользователи машинного обучения могут использовать все доступные данные. Они могут ожидать, что алгоритм обнаружит нечто интересное, используя больше данных. Однако выбор компонентов обычно улучшает модель и позволяет предотвратить распространенные проблемы.

  • Данные содержат избыточные или несущественные функции, которые не предоставляют больше информации, чем выбранные в данный момент компоненты.
  • Данные содержат несущественные функции, которые не предоставляют полезную информацию в любом контексте. Включение неуместных полей не только увеличивает время, необходимое для обучения данных, но и может привести к неудовлетворительным результатам.
  • В некоторых алгоритмах наличие повторяющихся сведений в обучающих данных может привести к возникновению проблемы с названием " многоколлинеарность". В многоколлинеарности наличие двух высококоррелированных переменных может привести к значительному снижению вычислений для других переменных.

Совет

некоторые алгоритмы машинного обучения в Машинное обучение Studio (классическая модель) также используют выбор компонентов или уменьшение размерности в рамках процесса обучения. При использовании таких алгоритмов можно пропустить процесс выбора признаков и позволить алгоритму самому определить наилучшие входные данные.

Использование выбора компонентов в эксперименте

Выбор компонентов обычно выполняется при просмотре данных и разработке новой модели. При использовании выбора компонентов учитывайте следующие советы.

  • При тестировании добавьте выбор компонентов в эксперимент, чтобы создать оценки, которые сообщают о том, какие столбцы следует использовать.
  • Удалите выбор компонентов из эксперимента при эксплуатациюии модели.
  • Периодически запускайте выбор компонентов, чтобы убедиться в том, что данные и лучшие компоненты не были изменены.

Выбор компонентов отличается от проектирования признаков, что посвящено созданию новых функций за пределами существующих данных.

Ресурсы

методы выбора компонентов в Машинное обучение Studio (классическая модель)

следующие модули выбора компонентов предоставляются в Машинное обучение Studio (классическая модель).

Выбор признаков с помощью фильтра

При использовании модуля выбора компонентов на основе фильтров можно выбрать один из стандартных методов выбора компонентов. Модуль выводит как статистику выбора компонентов, так и отфильтрованный набор данных.

Применение метода выбора на основе фильтров отчасти зависит от вида входных данных.

Метод Поддерживаемые входные данные компонентов Поддерживаемые метки
Корреляция Пирсона Только числовые и логические столбцы Отдельный числовой или логический столбец
Оценка взаимной информации Все типы данных Отдельный столбец данных любого типа
Коэффициент корреляции Кендалла Только числовые и логические столбцы Отдельный числовой или логический столбец

Столбцы должны иметь значения, которые могут быть ранжированы
Коэффициент корреляции Спирмена Только числовые и логические столбцы Отдельный числовой или логический столбец
Статистика хи-квадрат Все типы данных Отдельный столбец данных любого типа
Оценка Фишера Только числовые и логические столбцы Отдельный числовой или логический столбец

Строковым столбцам присваивается оценка 0
Выбор компонентов на основе количества Все типы данных Столбец меток не требуется

Линейный дискриминантный анализ Фишера

Линейный Discriminantный анализ — это контролируемый метод обучения, который можно использовать для классификации числовых переменных в сочетании с одним целевым объектом. При выборе признаков этот метод позволяет выявить комбинацию признаков или параметров, которая разделяет группы наилучшим образом.

Для создания набора оценок для проверки можно использовать модуль Discriminant Analysis линейного анализа Фишера , а для обучения можно использовать набор данных замены, созданный модулем.

Значение функции перестановки

Используйте модуль " важность функции перестановки ", чтобы имитировать воздействие любого набора функций на набор данных. Модуль вычисляет оценки производительности для модели на основе случайных перетасовывание значений компонентов.

Показатели, возвращаемые модулем, представляют потенциальные изменения точности обученной модели при изменении значений. Оценки можно использовать для определения влияния отдельных переменных на модель.

Алгоритмы машинного обучения, включающие выбор компонентов

некоторые алгоритмы машинного обучения в Машинное обучение Studio (классическая модель) оптимизируют выбор компонентов во время обучения. Они также могут предоставлять параметры, помогающие в выборе компонентов. Если вы используете метод, имеющий свой собственный эвристический подход к выбору функций, часто лучше полагаться на эту эвристику, а не на функции предвыбора.

Эти алгоритмы и методы выбора компонентов используются внутренне:

  • Модели повышенного дерева принятия решений для классификации и регрессии

    В этих модулях сводка по функциям создается внутренним образом. Функции с весом 0 не используются при разбиении дерева. При визуализации лучшей обученной модели можно взглянуть на каждое из деревьев. Если функция никогда не используется ни в одном дереве, эта функция, скорее всего, будет кандидатом к удалению. Для оптимизации выбора также рекомендуется использовать вычистку параметров.

  • Модели логистической регрессии и линейные модели

    Модули для многоклассовой и двоичной логистической регрессии поддерживают алгоритмы L1 и L2. Регулярная обработка — это способ добавления ограничений во время обучения, чтобы вручную указать аспект полученной модели. Обычно для предотвращения перегонки используется обычная регулярная обойти. Машинное обучение Studio (классическая модель) поддерживает обрезку для норм веса L1 или L2 вектора взвешивания в алгоритмах линейной классификации:

    • Если целью является модель, которая является как можно более разреженной, целесообразно использовать стандарт L1.
    • Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Это полезно, если целью является модель с небольшим общим весом.
    • На уровне L1 реализована жесткая логистическая регрессия, которая более агрессивна для присвоения весовых коэффициентов 0. Это полезно при определении функций, которые могут быть удалены.

Технические примечания

Все модули выбора компонентов и аналитические методы, поддерживающие числовые и логические столбцы, также поддерживают столбцы даты-времени и TimeSpan. Эти столбцы рассматриваются как простые числовые столбцы, в которых каждое значение равно количеству тактов.

Следующие модули не находятся в категории выбора компонентов , но их можно использовать для связанных задач. Эти модули позволяют уменьшить размерность данных или найти корреляции:

Если имеется набор данных, содержащий много столбцов, используйте модуль анализа основных компонентов , чтобы определить столбцы, содержащие наибольшую информацию о исходных данных.

Этот модуль находится в категории преобразования данных в разделе масштаб и уменьшение.

Добавление признаков на основе счетчиков — это новая методика, которую можно использовать для определения полезных функций с помощью больших наборов данных. Используйте эти модули для анализа наборов данных, чтобы найти лучшие функции, сохранить набор функций для использования с новыми данными или обновить существующий набор функций.

Этот модуль используется для расчета набора коэффициентов корреляции Пирсона для каждой возможной пары переменных во входном наборе данных. Коэффициент корреляции Пирсона, также называемый «тест R» Пирсона, представляет собой статистическое значение, которое измеряет линейную связь между двумя переменными.

Этот модуль находится в категории статистические функции .

Список модулей

Категория выбора компонентов включает следующие модули:

См. также раздел