Компонент "Очистка недостающих данных"

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Используйте этот компонент для удаления, замены или выведения недостающих значений.

Специалисты по обработке и анализу данных часто проверяют данные на наличие недостающих значений, а затем выполняют различные операции по исправлению данных или вставке новых значений. Такие операции очистки выполняются, чтобы предотвратить проблемы из-за отсутствия данных, которые могут возникнуть при обучении модели.

Этот компонент поддерживает несколько типов операций для" очистки" недостающих значений, в том числе:

  • замену недостающих значений заполнителем, средним или другим значением;
  • полное удаление строк и столбцов с недостающими значениями;
  • выведение значений на основе статистических методов.

При использовании этого компонента исходный набор данных не изменяется. Вместо этого в рабочей области создается новый набор данных, который можно использовать в следующем рабочем процессе. Вы можете также сохранить новый очищенный набор данных для повторного использования.

Этот компонент также выдает определение преобразования, примененного для очистки недостающих значений. Это преобразование можно повторно использовать для других наборов данных с такой же схемой с помощью компонента Применение преобразования.

Использование модуля очистки недостающих данных

Этот компонент позволяет определить операцию очистки. Вы также можете сохранить операцию очистки, чтобы позже применить ее к новым данным. Сведения о создании и сохранении процесса очистки см. в следующих разделах:

Важно!

Метод очистки, используемый для обработки недостающих значений, может существенно повлиять на результаты. Мы рекомендуем вам поэкспериментировать с различными методами. Учитывайте как основание использования определенного метода, так и качество результатов.

Замените отсутствующие значения

Каждый раз при применении компонента Очистка недостающих данных к набору данных ко всем выбранным столбцам применяется одна и та же операция очистки. Поэтому, если вам нужно очистить разные столбцы с помощью различных методов, используйте отдельные экземпляры компонента.

  1. Добавьте компонент Очистка недостающих данных в конвейер и подключите набор данных с недостающими значениями.

  2. В поле Columns to be cleaned (Столбцы для очистки) выберите столбцы, содержащие недостающие значения, которые необходимо изменить. Можно выбрать несколько столбцов, но необходимо использовать один и тот же метод замены во всех выбранных столбцах. Поэтому обычно строковые и числовые столбцы нужно очищать отдельно.

    Например, чтобы проверить недостающие значения во всех числовых столбцах, нужно сделать следующее:

    1. Выберите компонент Очистка недостающих данных и щелкните Изменить столбец на правой панели компонента.

    2. В поле Включить из раскрывающегося списка выберите Типы столбцов, а затем выберите Числовые.

    Любой выбранный метод очистки или замены должен быть применим ко всем столбцам в выделенном фрагменте. Если данные в каком-либо столбце несовместимы с указанной операцией, компонент возвращает ошибку и останавливает конвейер.

  3. Для параметра Minimum missing value ratio (Минимальное соотношение недостающих значений) укажите минимальное количество недостающих значений, необходимых для выполнения операции.

    Этот параметр используется вместе с параметром Maximum missing value ratio (Максимальное соотношение недостающих значений) для определения условий, при которых выполняется операция очистки для набора данных. Если строк c недостающими значениями слишком много или слишком мало, операция не может быть выполнена.

    Введенное число представляет соотношение недостающих значений ко всем значениям в столбце. По умолчанию свойство минимального соотношения недостающих значений имеет значение 0. Это означает, что недостающие значения очищаются даже при наличии только одного недостающего значения.

    Предупреждение

    Это условие должно выполняться в каждом столбце для применения указанной операции. Например, предположим, что вы выбрали три столбца, а затем установили для минимального соотношения недостающих значений значение 2 (20 %), но на самом деле только один столбец имеет 20 % недостающих значений. В этом случае операция очистки будет применена только к столбцу с более чем 20 % недостающих значений. Поэтому другие столбцы останутся неизмененными.

    В случае каких-либо сомнений в изменении недостающих значений выберите параметр Создать столбец индикации недостающих значений. К набору данных добавляется столбец, указывающий, соответствует ли каждый столбец заданным условиям для минимального и максимального диапазонов.

  4. Для параметра Maximum missing value ratio (Максимальное соотношение недостающих значений) укажите максимальное число недостающих значений, которые могут присутствовать в операции.

    Например, подстановку недостающих значений можно выполнить, если 30 % строк или меньше содержат недостающие значения, но, если недостающие значения есть в более чем 30 % строк, нужно оставить их как есть.

    Его следует указать как отношение недостающих значений ко всем значениям в столбце. Для параметра Maximum missing value ratio (Максимальное соотношение недостающих значений) по умолчанию установлено значение 1. Это означает, что недостающие значения очищаются, даже если в столбце 100 % недостающих значений.

  5. Для параметра Cleaning Mode (Режим очистки) выберите один из следующих вариантов замены или удаления недостающих значений:

    • Настраиваемое заменяющее значение. Этот параметр используется для указания значения заполнителя (например, 0 (ноль) или н/д), который применяется ко всем недостающим значениям. Значение, указанное в качестве замены, должно быть совместимо с типом данных столбца.

    • Замена средним. Вычисляет среднее значение столбца и использует его в качестве заменяющего значения для каждого недостающего значения в столбце.

      Применяется только для столбцов с типами данных Integer, Double или Boolean.

    • Замена медианным значением. Вычисляет медиану столбца и использует ее в качестве заменяющего значения для каждого недостающего значения в столбце.

      Применяется только для столбцов с типом данных Integer или Double.

    • Заменить на режим. Метод вычисляет режим столбца и использует его в качестве замены для каждого недостающего значения столбца.

      Применяется только для столбцов с типом данных Integer, Double, Boolean или категориальным типом.

    • Удалить целую строку. Полностью удаляет любую строку в наборе данных, имеющую одно или несколько недостающих значений. Этот вариант удобно использовать, если недостающее значение может рассматриваться как случайный пропуск.

    • Удалить целый столбец. Полностью удаляет любой столбец в наборе данных, имеющий одно или несколько недостающих значений.

  6. Параметр Replacement value (Значение замены) доступен, если уже выбран параметр Custom substitution value (Настраиваемое заменяющее значение). Введите новое значение, которое будет использоваться в качестве замещающего значения для всех недостающих значений в столбце.

    Обратите внимание, что этот параметр можно использовать только в столбцах с типом данных Integer, Double, Boolean или String.

  7. Generate missing value indicator column (). Выберите этот параметр, если необходимо вывести сведения о том, соответствуют ли значения в столбце критериям очистки недостающих значений. Этот параметр особенно полезен, если вы настраиваете новую операцию очистки и хотите убедиться, что она работает так, как нужно.

  8. Отправьте конвейер.

Результаты

Компонент возвращает два результата:

  • Очищенный набор данных. Набор данных, состоящий из выбранных столбцов с недостающими значениями, которые обрабатываются в соответствии с указаниями, вместе со столбцом индикатора в случае, если этот параметр был выбран.

    В него также передаются столбцы, не выбранные для очистки.

  • Преобразование с очисткой. Преобразование данных, используемое для очистки, которое можно сохранить в рабочей области и позже применить к новым данным.

Применение сохраненной операции очистки к новым данным

Если вам нужно повторять операции очистки, рекомендуется сохранить рецепт очистки данных в качестве преобразования для повторного использования с одним и тем же набором данных. Сохранение преобразования с очисткой особенно полезно, если вам необходимо часто импортировать и очищать данные с одной и той же схемой.

  1. Добавьте в конвейер компонент Применение преобразования.

  2. Добавьте набор данных, который необходимо очистить, и подключите его к правому порту ввода.

  3. Разверните группу Преобразования на левой панели конструктора. Найдите сохраненное преобразование и перетащите его в конвейер.

  4. Подключите сохраненное преобразование к левому порту ввода модуля Применение преобразования.

    При применении сохраненного преобразования нельзя выбрать столбцы, к которым применяется преобразование. Это обусловлено тем, что преобразование уже определено и применяется автоматически к столбцам, указанным в исходной операции.

    Но, предположим, что вы создали преобразование для подмножества числовых столбцов. Тогда это преобразование можно применить к набору данных из смешанных типов столбцов, не вызывая ошибку, так как недостающие значения изменяются только в соответствующих числовых столбцах.

  5. Отправьте конвейер.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.