Преобразование в значения индикатора

В этой статье описывается компонент конструктора Машинного обучения Azure.

Использование компонента Преобразование в значения индикатора в конструкторе службы "Машинное обучение Azure" для преобразования столбцов, содержащих категориальные значения, в ряд столбцов двоичных индикаторов.

Операция преобразования в значения индикаторов позволяет преобразовать категориальные данные в значения индикаторов, представленные двоичными или несколькими значениями. Этот процесс является одним из этапов предварительной обработки данных, часто используемых для моделей классификации.

Этот компонент также выводит определение преобразования, используемого для преобразования в значения индикатора. Это преобразование можно повторно использовать для других наборов данных с такой же схемой с помощью компонента Применение преобразования.

Настройка преобразования в значения индикатора

  1. Найдите модуль Преобразование в значения индикатора и перетащите его в черновик конвейера. Этот компонент можно найти в категории Преобразование данных.

    Примечание.

    Чтобы отметить целевые столбцы как категориальные, можно использовать компонент Изменение метаданных перед компонентом Преобразование в значения индикатора.

  2. Подключите компонент Преобразование в значения индикатора к набору данных, содержащему столбцы, которые необходимо преобразовать.

  3. Выберите Изменить столбец, чтобы выбрать один или несколько категориальных столбцов.

  4. Выберите параметр Overwrite categorical columns (Перезаписать категориальные столбцы), чтобы вывести только новые логические столбцы. По умолчанию этот параметр выключен.

    Совет

    При выборе варианта перезаписи исходный столбец фактически не удаляется и не изменяется. Вместо этого создаются новые столбцы, которые и представляются в выходном наборе данных, а исходный столбец остается доступным в рабочей области. Если необходимо просмотреть исходные данные, можно в любое время использовать компонент Добавление столбцов, чтобы добавить исходный столбец обратно.

  5. Отправьте конвейер.

Результаты

Предположим, у вас есть столбец с оценками, указывающий вероятность сбоя сервера (высокая, средняя или низкая).

Идентификатор сервера Показатель сбоя
10301 Низкая
10302 Средняя
10303 Высокая

При применении модуля Преобразование в значения индикатора конструктор преобразует один столбец меток в несколько столбцов, содержащих логические значения.

Идентификатор сервера Показатель сбоя — низкий Показатель сбоя — средний Показатель сбоя — высокий
10301 1 0 0
10302 0 1 0
10303 0 0 1

Принцип действия преобразования описан ниже.

  • В столбце Показатель сбоя, описывающем риск, существует только три возможных значения ("Высокий", "Средний" и "Низкий") и нет отсутствующих значений. Поэтому создаются ровно три новых столбца.

  • Имена новых столбцов индикаторов задаются на основе заголовков столбцов и значений исходного столбца по следующему шаблону: <исходный столбец>- <значение данных>.

  • В одном столбце индикаторов должно быть значение 1, а в других столбцах индикаторов — значение 0, так как каждый сервер может иметь только одну оценку риска.

Теперь в модели машинного обучения можно использовать три столбца индикаторов в качестве признаков.

Компонент возвращает два результата:

  • Набор данных результатов. Набор данных с преобразованными столбцами значений индикатора. В него также передаются столбцы, не выбранные для очистки.
  • Преобразование значений индикатора. Преобразование данных, используемое для преобразования в значения индикатора, которое можно сохранить в рабочей области и применить к новым данным позже.

Применение сохраненной операции со значениями индикатора к новым данным

Если необходимо повторить операции со значениями индикатора, можно сохранить шаги обработки данных в виде преобразования, чтобы повторно использовать их с тем же набором данных. Это полезно, если необходимо часто повторно импортировать и очищать данные, имеющие одну и ту же схему.

  1. Добавьте в конвейер компонент Применение преобразования.

  2. Добавьте набор данных, который необходимо очистить, и подключите его к правому порту ввода.

  3. Разверните группу Преобразование данных на левой панели конструктора. Найдите сохраненное преобразование и перетащите его в конвейер.

  4. Подключите сохраненное преобразование к левому входному порту модуля Применение преобразования.

    При применении сохраненного преобразования невозможно выбрать столбцы для преобразования. Это обусловлено тем, что преобразование определено и применяется автоматически к типам данных, указанным в исходной операции.

  5. Отправьте конвейер.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

  • В столбцы индикаторов можно преобразовать только столбцы, помеченные как категориальные. Если вы видите следующую ошибку, вероятно, один из выбранных столбцов не категориальный.

    Ошибка 0056. Столбец с именем <имя_столбца> относится к недопустимой категории.

    По умолчанию большинство строковых столбцов обрабатываются как строковые признаки, поэтому их необходимо явным образом пометить как категориальные с помощью модуля Изменение метаданных.

  • Ограничения на количество столбцов, которые можно преобразовать в столбцы индикаторов, отсутствуют. Однако, поскольку для каждого столбца значений может быть получено несколько столбцов индикаторов, возможно, потребуется преобразовывать и проверять по несколько столбцов одновременно.

  • Если столбец содержит отсутствующие значения, для отсутствующей категории создается отдельный столбец индикаторов с таким именем: <исходный столбец>— отсутствует

  • Если столбец, преобразуемый в значения индикатора, содержит числа, он должен быть помечен как категориальный, как и любые другие столбцы признаков. После этого числа рассматриваются как дискретные значения. Например, если имеется числовой столбец со значениями расхода топлива от 25 до 30, будет создан новый столбец индикаторов для каждого дискретного значения.

    Создание Расход по трассе — 25 Расход по трассе — 26 Расход по трассе — 27 Расход по трассе — 28 Расход по трассе — 29 Расход по трассе — 30
    Contoso Cars 0 0 0 0 0 1
  • Чтобы избежать добавления слишком большого количества измерений в набор данных, рекомендуется сначала проверить количество значений в столбце и добавить данные в ячейку или квантировать их соответствующим образом.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.