Обрезка значений

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Обнаруживает выбросы и отсекает или заменяет их значение

Категория: Преобразование или масштабирование данных и снижение

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль " значения Clip " в Машинное обучение Studio (классическая модель) для обнаружения и, при необходимости, замены значений данных, которые выше или ниже указанного порогового значения. Это полезно, если требуется удалить выбросы или заменить их средним значением, константой или другим замещающим значением.

Модуль подключается к набору данных с числами, которые необходимо обрезать. Выберите столбцы для работы, а затем установите пороговое значение или диапазон значений и метод замены. Модуль может выводить только результаты или измененные значения, добавленные к исходному набору данных.

Настройка обрезки значений

Перед началом работы укажите столбцы, которые нужно обрезать, и используемый метод. Рекомендуется сначала протестировать метод обрезки на небольшом подмножестве данных.

Модуль применяет те же критерии и метод замены ко всем столбцам, которые включаются в выбор. Поэтому не забудьте исключить столбцы, которые не нужно изменять.

Если необходимо применить методы обрезки или другие критерии к некоторым столбцам, используйте новый экземпляр обрезки значений для каждого набора схожих столбцов.

  1. Добавьте модуль " фрагменты значений " в эксперимент и подключите его к набору данных, который необходимо изменить. Этот модуль можно найти в разделе Преобразование данных в категории Масштабирование и сокращение.

  2. С помощью селектора столбцов выберите в списке столбцов столбцы, к которым будет применяться обрезка значений.

  3. Для набора пороговых значений выберите один из следующих параметров в раскрывающемся списке. Эти параметры определяют способ установления верхних и нижних границ для допустимых значений и значений, которые должны быть обрезаны.

    • ClipPeaks: при отсечении значений по пиковым значениям указывается только верхняя граница. Значения, превышающие это значение границы, заменяются или удаляются.

    • Клипсубпеакс: при отсечении значений по подпикам можно указать только нижнюю границу. Значения, меньшие, чем это граничное значение, заменяются или удаляются.

    • Клиппеаксандсубпеакс: при отсечении значений по пиковым и промежуточным пиковым значениям можно указать и верхнюю, и нижнюю границы. Значения, находящиеся за пределами этого диапазона, заменяются или удаляются. Значения, соответствующие значениям границ, остаются без изменений.

  4. В зависимости от выбора на предыдущем шаге можно задать следующие пороговые значения:

    • Нижнее пороговое значение: отображается только при выборе ClipSubPeaks
    • Верхнее пороговое значение: отображается только при выборе ClipPeaks
    • Пороговое значение: отображается только при выборе ClipPeaksAndSubPeaks

    Для каждого типа порогового значения выберите значение Константа или Процентиль.

  5. При выборе значения Константа введите максимальное или минимальное значение в текстовом поле. Например, предположим, что в качестве значения заполнителя было использовано значение 999. Можно выбрать константу для верхнего порога и ввести 999 в качестве постоянного значения верхнего порога.

  6. Если выбрать значение Процентиль, то значения столбцов будут ограничены процентильным диапазоном.

    Например, предположим, что нужно удержать только значения в диапазоне процентиля 10–80 и заменить все остальные. Выберите процентиль, а затем введите 10 для значения процентиля нижнего порогаи введите 80 для значения процентиля верхнего порога.

    Некоторые примеры использования диапазонов процентиля см. в разделе Процентили.

  7. Определите замещающее значение.

    Числа, которые точно соответствуют заданным вами границам, считаются в пределах допустимого диапазона значений и поэтому не заменяются или удаляются. Все числа, которые выходят за пределы указанного диапазона, заменяются замещающим значением.

    • Замещающее значение для пиковых значений: определяет значение, которым необходимо заменить все значения столбцов, превышающие указанное пороговое значение.
    • Замещающее значение для подпиковых значений: определяет значение, которое необходимо использовать для замены всех значений столбцов ниже указанного порогового значения.
    • При использовании параметра ClipPeaksAndSubpeaks можно указать отдельные замещающие значения для верхних и нижних обрезанных значений.

    Поддерживаются следующие замещающие значения:

    • Пороговое значение. Заменяет обрезанные значения указанным пороговым значением.

    • Среднее значение. Заменяет обрезанные значения средними значениями столбцов. Среднее значение вычисляется до обрезки значений.

    • Медиана. Заменяет обрезанные значения медианным значением столбцов. Медианное значение вычисляется до обрезки значений.

    • Значение отсутствует. Заменяет обрезанные значения на отсутствие (пустое) значения.

  8. Добавить столбцы индикации. Выберите этот параметр, если нужно создать новый столбец, сообщающий о том, применена ли указанная операция обрезки к данным в этой строке. Этот параметр особенно удобен при тестировании нового набора значений обрезки и подстановки.

  9. Флаг перезаписи. Указывает способ создания новых значений. По умолчанию модуль Обрезка значений создает новый столбец с пиковыми значениями, обрезанными до требуемого порогового значения. Новые значения перезапишут значения в исходном столбце.

    Для сохранения значений в исходном столбце и добавления нового столбца с обрезанными значениями снимите этот флажок.

  10. Запустите эксперимент.

    Щелкните правой кнопкой мыши выходные данные модуля " значения клипов " и выберите команду визуализировать , чтобы просмотреть значения и убедиться, что операция обрезки удовлетворена вашими ожиданиями.

Примеры

Сведения о том, как этот модуль используется в экспериментах машинного обучения, см. в Коллекция решений ии Azure:

  • В лесу срабатывают выбросы. Этот пример из EdX каусе в обработке и анализа данных демонстрирует методы обрезки, использующие лес, запускает пример набора данных.

Обрезка с помощью процентили

Для понимания отсечения по процентилям рассмотрим набор данных с 10 строками, имеющих по одному экземпляру каждого значения от 1 до 10.

  • При использовании 90-й процентили в качестве верхнего порога 90 % от всех значений в наборе данных должны быть меньше этого значения.

  • При использовании 10-й процентили в качестве нижнего порога 10 % от всех значений в наборе данных должны быть меньше этого значения.

  1. Для параметра Набор порогов выберите значение ClipPeaksAndSubPeaks.

  2. Для параметра Верхний порог выберите Процентиль, а для параметра Номер процентили введите значение 90.

  3. Для параметра Верхнее заменяющее значение выберите Значение отсутствует.

  4. Для параметра Нижний порог выберите Процентиль, а для параметра Номер процентили введите значение 10.

  5. Для параметра Нижнее заменяющее значение выберите Значение отсутствует.

  6. Снимите флажок Перезапись и выберите параметр Добавить столбец индикации.

Теперь повторите тот же эксперимент, установив значение 60 для верхнего процентильного порога, 30 для нижнего процентильного порога и использовав пороговое значение в качестве заменяющего. Полученные результаты сравниваются в следующей таблице.

  1. Замена на отсутствие значения; верхний порог = 90; нижний порог = 10

  2. Замена пороговым значением; верхняя процентиль = 60; нижняя процентиль = 30

Исходные данные Замена на отсутствие значения Замена пороговым значением
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Технические примечания

  • Значения обрезки можно использовать только для столбцов, содержащих числа или значения даты-времени.

  • При включении столбцов, содержащих текст или категориальные данные, эти столбцы будут пропущены.

  • При вычислении среднего арифметического или медианы столбца недостающие значения игнорируются.

  • Модуль Значения отсечения не поддерживает порядковых данных.

  • Недостающие значения не изменяются при передаче в выходной набор данных. Столбец, обозначающий усеченные значения, всегда содержит FALSE для недостающих значений.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Добавить столбцы индикации True или false Логическое FALSE Требуется ли добавить индикатор для обрезки значения
Постоянное значение нижнего порогового значения any Float -1 Значение, под которым будут обрезаны подпики
Постоянное значение верхнего порогового значения any Float 1 Значение, над которым будут обрезаны пиковые значения
Постоянное значение нижнего порогового значения any Float -1 Значение, под которым обрезаются подпики
Постоянное значение верхнего порогового значения >= 1 Float 1 Значение, над которым обрезаются пиковые значения
Список столбцов Выбор столбцов Список столбцов для обрезки
Нижнее значение замены Пороговое значение

Среднее значение

Median

Missing
субститутевалуес Пороговое значение Значение, используемое для обрезки подпиковых значений
Нижнее пороговое значение Константа

Процентиль
Режим порогового значения Константа Значение, которое будет обрезано по отношению к пиковым значениям
Флажок перезаписи True или false Логическое true Должны ли столбцы с усеченными данными перезаписывать столбцы входных данных
Процентиль нижнего порогового значения [1; 99] Целое число 1 Значение процентиля, под которым будут обрезаны подпики
Процентиль верхнего порогового значения [1; 99] Целое число 99 Величина процентиля, над которой будут обрезаны пиковые значения
Процентиль нижнего порогового значения [1; 99] Целое число 1 Значение процентиля, под которым обрезаются подпики
Процентиль верхнего порогового значения [1; 99] Целое число 99 Величина процентиля, над которой обрезаются пиковые значения
Набор пороговых значений клиппеакс

клипсубпеакс

клиппеаксандсубпеакс
Пороговый набор клиппеакс Указывает тип порогового значения для использования
Значение замены для пиков Пороговое значение

Среднее значение

Median

Missing
субститутевалуес Пороговое значение Значение, используемое при обрезке пиковых значений
Значение замены для субпиков Пороговое значение

Среднее значение

Median

Missing
субститутевалуес Пороговое значение Значение, используемое во время обрезки подпиковых значений
Пороговое значение Константа

Процентиль
Режим порогового значения Константа Значение выше и ниже, в которых пиковые значения будут обрезаны
Верхнее значение замены Пороговое значение

Среднее значение

Median

Missing
Пороговое значение Пороговое значение Значение, используемое для обрезки пиковых значений
Верхнее пороговое значение Константа

Процентиль
Режим порогового значения Константа Значение, для которого пиковые значения будут отсечены

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Набор данных с усеченными столбцами

Исключения

Исключение Описание
Ошибка 0011 Исключение возникает, если переданный аргумент набора столбцов не применяется к любому из столбцов набора данных.
Ошибка 0017 Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Масштабирование и сокращение
Список модулей в алфавитном порядке