Компонент для удаления повторяющихся строк

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

С помощью этого компонента можно удалить потенциальные дубликаты из набора данных.

Например, данные представляют несколько записей для пациентов и выглядят следующим образом.

PatientID Инициалы пол; возраст; Поступление
1 F.M. M 53 Январь
2 F.A.M. M 53 Январь
3 F.A.M. M 24 Январь
3 F.M. M 24 Февраль
4 F.M. M 23 Февраль
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M не число
7 F.A.M. M не число

Видно, что в этом примере есть несколько столбцов с потенциально повторяющимися данными. Действительно ли они являются дубликатами, зависит от того, что вы знаете о данных.

  • Например, вам может быть известно, что у многих пациентов одинаковое имя. Тогда вы не будете исключать дубликаты, используя столбцы имени, а будете работать только со столбцами идентификаторов. Таким образом, отфильтровываются только строки с повторяющимися значениями идентификатора, независимо от того, имеют ли пациенты одинаковое имя или нет.

  • Кроме того, можно разрешить дублирование в поле идентификатора и использовать другой набор файлов для поиска уникальных записей, таких как имя, фамилия, возраст и пол.

Чтобы задать критерии для определения повторяющихся строк, укажите один столбец или набор столбцов для использования в качестве ключей. Две строки считаются повторяющимися, только если значения во всех ключевых столбцах равны. Если в строке отсутствуют значения ключей, она не будет считаться повторяющейся. Например, если в качестве ключевых столбцов в приведенной выше таблице заданы "Пол" и "Возраст", строки 6 и 7 не будут повторяющимися, так как они не содержат значения в столбце "Возраст".

Когда вы запускаете компонент, он создает подходящий набор данных и возвращает набор строк, не имеющих дубликатов в указанных столбцах.

Важно!

Исходный набор данных не изменяется. Этот компонент создает новый набор данных, который фильтруется для исключения дубликатов на основе указанных критериев.

Как использовать удаление повторяющихся строк

  1. Добавьте этот компонент в свой конвейер. Компонент Удаление повторяющихся строк можно найти в разделе Преобразование данных > Управление.

  2. Подключите набор данных, который необходимо проверить на наличие повторяющихся строк.

  3. В разделе Key column selection filter expression (Выражение фильтра выбора ключевого столбца) в области Свойства щелкните Launch column selector (Запустить средство выбора столбцов), чтобы выбрать столбцы для обнаружения дубликатов.

    В этом контексте ключ не является уникальным идентификатором. Все столбцы, выбранные с помощью средства выбора столбцов, назначаются в качестве ключевых столбцов. Все невыбранные столбцы считаются неключевыми столбцами. Сочетание столбцов, выбранных в качестве ключей, определяет уникальность записей. (Представьте, что это инструкция SQL, использующая несколько равных присоединений.)

    Примеры:

    • "Я хочу убедиться, что идентификаторы уникальны": выберите только столбец идентификаторов.
    • "Я хочу убедиться, что сочетание имени, фамилии и идентификатора уникально": выберите все три столбца.
  4. Установите флажок Retain first duplicate row (Сохранить первую из повторяющихся строк), чтобы указать, какая строка должна возвращаться при обнаружении дубликатов:

    • Если этот флажок установлен, возвращается первая строка, а другие отбрасываются.
    • Если снять этот флажок, в результатах будет сохранена последняя повторяющаяся строка, а другие будут удалены.
  5. Отправьте конвейер.

  6. Чтобы просмотреть результаты, щелкните компонент правой кнопкой мыши и выберите Визуализировать.

Совет

Если результаты сложно понять или вы хотите исключить некоторые столбцы из рассмотрения, можно удалить столбцы с помощью компонента Выбор столбцов в наборе данных.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.