Поделиться через


Удаление дубликатов в каждой таблице для унификации данных

Шаг унификации "Правила дедупликации" находит и удаляет повторяющиеся записи для клиента из исходной таблицы, так что каждый клиент представлен одной строкой в каждой таблице. Каждая таблица дедуплицируется отдельно с использованием правил для идентификации записей для данного клиента.

Правила обрабатываются по порядку. После применения всех правил ко всем записям в таблице группы совпадений, имеющие общую строку, объединяются в одну группу совпадений.

Определение правил дедупликации

Хорошее правило идентифицирует уникального клиента. Рассмотрите свои данные. Возможно будет достаточно идентифицировать клиентов на основе такого поля, как адрес электронной почты. Однако если вы хотите различать клиентов, у которых есть общий адрес электронной почты, вы можете выбрать правило с двумя условиями, сопоставляющими по адресу электронной почты + имени. Для получения дополнительной информации см. Понятия и сценарии дедупликации.

  1. На странице Правила дедупликации выберите таблицу и нажмите Добавить правило для определения правил дедупликации.

    Совет

    Если вы обогатили таблицы на уровне источника данных чтобы улучшить результаты объединения, выберите Использовать обогащенные таблицы в верхней части страницы. Дополнительная информация дана в теме Обогащение источников данных.

    Снимок экрана: страница Правила дедупликации с выделенной таблицей и отображением добавления правила.

    1. В области Добавить правило ведите следующие данные:

      • Выбрать поле: выберите из списка доступных полей таблицу, которую вы хотите проверить на наличие повторяющихся данных. Выберите поля, которые, вероятно, уникальны для каждого клиента. Например, адрес электронной почты или комбинация имени, города и номера телефона.
      • Нормализация: выберите варианты нормализации для столбца. Нормализация влияет только на шаг сопоставления и не меняет данные.
        • Цифры: преобразует множество символов Юникода, представляющих числа, в простые числа.
        • Символы: удаляет многие распространенные символы, такие как !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Например Head&Shoulder становится HeadShoulder.
        • Текст в нижний регистр: переводит все символы в нижний регистр. "ВСЕ ЗАГЛАВНЫЕ БУКВЫ и Капитализация Начальных Букв" преобразуется во "все заглавные буквы и капитализация начальных букв".
        • Тип (телефон, имя, адрес, организация): стандартизирует имена, должности, номера телефонов, адреса и т. д.
        • Unicode в ASCII: преобразует символы Unicode в эквивалентные символы ASCII. Например, буква ề с диакритическим знаком преобразуется в букву e.
        • Пробел: удаляет все пробелы. Hello World превращается в HelloWorld.
      • Точность: задает уровень точности. Точность используется при нечетком сопоставлении и определяет, насколько близкими должны быть две строки, чтобы их можно было считать совпадением.
        • Базовый: выберите Низкий (30%), Средний (60%), Высокий (80%), и Точный (100%). Выберите Точно, чтобы сопоставлять только записи, которые совпадают на 100 процентов.
        • Пользовательский: задайте процент, которому должны соответствовать записи. Система сопоставляет только записи, превышающие этот порог.
      • Имя: имя для правила.

      Снимок экрана области добавления правила для удаления повторяющихся данных.

    2. При желании выберите Добавить>Добавить условие, чтобы добавить дополнительные условия к правилу. Условия связаны с помощью логического оператора "И", поэтому выполнение происходит только при соблюдении всех условий.

    3. Также можно выбрать Добавить>Добавить исключение, чтобы добавить исключения в правило. Исключения используются для устранения редких случаев ложноположительных и ложноотрицательных результатов.

    4. Нажмите Готово, чтобы создать правило.

  2. Вы также можете (необязательно) добавить дополнительные правила.

  3. Выберите таблицу, а затем нажмите Изменить настройки объединения.

  4. В области Объединить настройки:

    1. Выберите один из трех вариантов, чтобы определить, какую запись сохранить при обнаружении повторяющихся данных:

      • Наиболее заполненные: определяет запись с наиболее заполненными столбцами в качестве записи победителя. Это параметр объединения по умолчанию.
      • Самые новые: определяет запись победителя на основе "самая новая". Требуется дата или числовое поле для определения давности.
      • Наименее недавние: определяет запись победителя на основе "наименее недавние". Требуется дата или числовое поле для определения давности.

      В случае ничьей побеждает запись с MAX(PK) или большим значением первичного ключа.

    2. Также можно определить параметры объединения для отдельных столбцов таблицы. Для этого выберите Расширенные в нижней части области. Например, вы можете сохранить самую последнюю электронную почту И наиболее полный адрес из разных записей. Разверните таблицу, чтобы увидеть все ее столбцы, и определите, какой параметр использовать для отдельных столбцов. Если вы выберете вариант, основанный на давности, вам также необходимо указать поле даты/времени, определяющее давность.

      Область расширенных настроек объединения, показывающая последние сообщения электронной почты и полный адрес

    3. Выберите Готово, чтобы применить настройки объединения.

  5. После определения правил дедупликации и настроек объединения нажмите Далее.