Поделиться через


Определите правила сопоставления для объединения данных

Этот шаг объединения определяет порядок сопоставления и правила сопоставления таблиц. Для этого шага требуется как минимум две таблицы. Когда записи сопоставляются, они объединяются в одну запись со всеми полями из каждой таблицы. Альтернативные строки (строки, не выигравшие на этапе дедупликации) учитываются при сопоставлении. Но если строка соответствует альтернативной строке в таблице, запись сопоставляется со строкой-победителем.

Заметка

После того, как вы создадите условия сопоставления и нажмете Далее, вы не сможете удалить выбранную таблицу или столбец. При необходимости нажмите Назад для просмотра выбранных таблиц или столбцов, прежде чем продолжить.

Следующие шаги и изображения отражают первый раз, когда вы проходите процесс объединения. Чтобы изменить существующие параметры объединения, см. раздел Обновление параметров объединения.

Включение обогащенных таблиц (предварительная версия)

Если вы обогатили таблицы на уровне источника данных, выберите их, чтобы улучшить результаты объединения. Дополнительная информация дана в теме Обогащение источников данных. Если вы выбрали обогащенные таблицы на странице Правила дедупликации, вам не нужно выбирать их снова.

  1. На странице Правила сопоставления нажмите Использовать расширенные таблицы в верхней части страницы.

  2. В области Использовать обогащенные таблицы выберите одну или несколько обогащенных таблиц.

  3. Нажмите кнопку Готово.

Задание порядка установления соответствия

Каждое сопоставление объединяет две или более таблиц в одну консолидированную таблицу. В то же время в нем хранятся уникальные записи клиентов. Порядок сопоставления указывает порядок, в котором система пытается сопоставить записи.

Внимание

Первая таблица называется основной таблицей, которая служит в качестве основы для ваших единых профилей. К этой таблице будут добавлены дополнительные выбранные таблицы.

Важные замечания:

  • Выберите таблицу с наиболее полными и надежными данными профиля о ваших клиентах в качестве основной таблицы.
  • Выберите таблицу, которая имеет несколько столбцов, общих с другими таблицами (например, имя, номер телефона или адрес электронной почты), в качестве основной таблицы.
  • Таблицы могут сопоставляться только с другими таблицами, имеющими более высокий приоритет. Таким образом, таблица Table2 может соответствовать только таблице Table1, а таблица Table3 может соответствовать таблице Table2 или Table1.
  1. На станице Правила сопоставления используйте стрелки вверх и вниз для перемещения таблиц в нужном порядке или перетащите их. Например, выберите eCommerceContacts как основную таблицу и loyCustomer в качестве второй таблицы.

  2. Чтобы каждая запись в таблице была уникальным клиентом, независимо от того, будет ли найдено совпадение, выберите Включить все. Любые записи в этой таблице, которые не совпадают с записями в других таблицах, включаются в единый профиль. Записи, не имеющие совпадений, называются отдельными.

Основная таблица eCommerceContacts сопоставляется со следующей таблицей loyCustomer. Набор данных, полученный в результате первого шага сопоставления, сопоставляется со следующей таблицей, если у вас их более двух. Если дубликаты все еще существуют в eCommerceContacts, когда loyCustomer сопоставляется с eCommerceContacts, повторяющиеся строки eCommerceContacts не сводятся к одной записи о клиенте. Однако если повторяющиеся строки в loyCustomer совпадают со строкой в eCommerceContacts, они сводятся к одной записи о клиенте.

Снимок экрана с выбранным порядком сопоставления для таблиц.

Определите правила сопоставления

Правила соответствия определяют логику, по которой будет производиться поиск соответствий в определенной паре таблиц. Правило состоит из одного или нескольких условий.

Предупреждение рядом с именем таблицы означает, что для пары совпадения не определено правило сопоставления.

  1. Нажмите Добавить правило для пары таблиц, чтобы определить правила сопоставления.

  2. В области Добавить правило настройте условия для правила.

    Снимок экрана области добавления правила.

    • Выберите таблицу/поле (первая строка): выберите таблицу и столбец, которые, вероятно, будут уникальными для клиента. Например, номер телефона или адрес электронной почты. Избегайте сопоставления по столбцам типа действия. Например, ИД покупки, скорее всего, не найдет соответствия в других типах записей.

    • Выберите таблицу/поле (вторая строка): выберите столбец, который относится к столбцу таблицы, указанной в первой строке.

    • Нормализовать: выберите параметры нормализации для столбца.

      • Цифры: преобразует символы Юникода, представляющие числа, в простые числа.
      • Символы: удаляет символы и специальные символы, такие как !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Например Head&Shoulder становится HeadShoulder.
      • Текст в нижний регистр: преобразует символы верхнего регистра в нижний регистр. "ВСЕ ЗАГЛАВНЫЕ БУКВЫ и Капитализация Начальных Букв" преобразуется во "все заглавные буквы и капитализация начальных букв".
      • Тип (телефон, имя, адрес, организация): стандартизирует имена, должности, номера телефонов и адреса.
      • Юникод в ASCII: преобразует символы Юникода в их буквенный эквивалент ASCII. Например, буква ề с диакритическим знаком преобразуется в букву e.
      • Пробел: удаляет все пробелы. Hello World превращается в HelloWorld.
      • Псевдоним сопоставление: позволяет загружать собственный список пар строк, чтобы указать строки, которые всегда следует считать точным совпадением.
      • Пользовательский обход: позволяет загрузить собственный список строк, чтобы указать строки, которые никогда не должны совпадать.
    • Точность: установите уровень точности, чтобы иметь доступ к этому условию. Точность используется для точного и нечеткого совпадения и определяет, насколько близкими должны быть две строки, чтобы их можно было считать совпадением.

      • Базовый: выберите Низкий (30%), Средний (60%), Высокий (80%), и Точный (100%). Выберите Точно, чтобы сопоставлять только записи, которые совпадают на 100 процентов.
      • Пользовательский: задайте процент, которому должны соответствовать записи. Система будет сопоставлять только записи, превышающие этот порог.
    • Имя: имя для правила.

  3. Чтобы сопоставлять таблицы, только если столбцы соответствуют нескольким условиям, нажмите Добавить>Добавить условие, чтобы добавить дополнительные условия к правилу сопоставления. Условия связаны с помощью логического оператора "И", поэтому выполнение происходит только при соблюдении всех условий.

  4. При желании рассмотрите дополнительные параметры, такие как исключения или пользовательские условия сопоставления.

  5. Выберите Готово, чтобы сохранить правило.

  6. Вы также можете (необязательно) добавить дополнительные правила.

  7. Выберите Далее.

Добавление правила в сопоставляемую пару

Правила соответствия представляют собой наборы условий. Чтобы сопоставлять таблицы по условиям на основе нескольких столбцов, добавляйте дополнительные правила.

  1. Нажмите Добавить правило для таблицы, к которой нужно добавить правила.

  2. Следуйте инструкциям в разделе Определение правил для сопоставляемых пар.

Заметка

Порядок правил имеет значение. Алгоритм сопоставления пытается сопоставить данную запись клиента на основе вашего первого правила и переходит ко второму правилу только в том случае, если с первым правилом не было найдено совпадений.

Дополнительные параметры

Добавить исключения в правило

В большинстве случаев сопоставление таблиц приводит к уникальным профилям клиентов с консолидированными данными. Чтобы реагировать на редкие случаи ложных положительных и ложных отрицательных результатов, определите исключения для правила соответствия. Исключения применяются после обработки правил сопоставления и избегают сопоставления всех записей, удовлетворяющих критериям исключения.

Например, если ваше правило сопоставления объединяет фамилия, город и дату рождения, система будет идентифицировать близнецов с одинаковым фамилиями, которые живут в одном городе в одном профиле. Вы можете указать исключение, которое не соответствует профилям, если имя в объединяемых таблицах не совпадает.

  1. В области Изменить правило выберите Добавить>Добавить исключение.

  2. Укажите критерии исключения.

  3. Выберите Готово, чтобы сохранить правило.

Укажите пользовательские условия сопоставления

Укажите условия, которые переопределяют логику сопоставления по умолчанию. Возможны четыре варианта:

Вариант Описание: Пример
Всегда соответствуют Определяет значения для первичных ключей, которые всегда сопоставляются. Всегда сопоставлять строку с первичным ключом 12345 со строкой с первичным ключом 54321.
Никогда не соответствуют Определяет значения для первичных ключей, которые никогда не сопоставляются. Никогда не сопоставлять строку с первичным ключом 12345 со строкой с первичным ключом 54321.
Пропустить Определяет значения, которые система всегда должна игнорировать на этапе сопоставления. Игнорирует значения 11111 и Unknown во время сопоставления.
Сопоставление псевдонима Определяет значения, которые система должна рассматривать как одно и то же значение. Рассмотрение Joe как равное Joseph.
  1. Выберите Пользовательский.

    Пользовательская кнопка

  2. Выберите Пользовательский тип и нажмите Скачать шаблон. Переименуйте шаблон без использования пробелов. Используйте отдельный шаблон для каждого варианта совпадения.

  3. Откройте загруженный файл шаблона и заполните данные. Шаблон содержит поля для указания значений таблицы и первичного ключа таблицы, которые будут использоваться в пользовательском соответствии. Имена таблиц чувствительны к регистру. Например, если вам нужно, чтобы первичный ключ 12345 из таблицы Продажи всегда соответствовал первичному ключу 34567 из таблицы Контакт, заполните шаблон:

    • Table1: Продажи
    • Table1Key: 12345
    • Table2: Контакт
    • Table2Key: 34567

    В одном файле шаблона можно указывать пользовательские записи совпадений из нескольких таблиц.

    Если вы хотите указать настраиваемое соответствие для дедупликации в таблице, укажите ту же таблицу, что и Table1 и Table2, и установите разные значения первичного ключа. Вы должны определить по крайней мере одно правило дедупликации для таблицы, чтобы использовать пользовательское сопоставление.

  4. После добавления всех переопределений сохраните файл шаблона.

  5. Перейдите Данные>Источники данных и примите файлы шаблонов как новые таблицы.

  6. После отправки файлов выберите снова значение Пользовательский. Выберите необходимые таблицы из раскрывающегося меню и выберите Готово.

    Снимок экрана диалогового окна для выбора переопределений для пользовательского сценария сопоставления.

  7. Применение настраиваемого сопоставления зависит от варианта сопоставления, который вы хотите использовать.

    • Для Всегда совпадает или Никогда не совпадает переходите к следующему шагу.
    • Для параметров Пропуск или Сопоставление псевдонима выберите значение Изменить в существующем правиле соответствия или создайте новое правило. В раскрывающемся списке Нормализация выберите Пользовательский пропуск или Сопоставление псевдонима и выберите Готово.
  8. Нажмите Готово в области Пользовательский, чтобы применить пользовательскую конфигурацию сопоставления.

    Каждый принимаемый файл шаблона имеет собственный источник данных. Если обнаружены записи, требующие специальной обработки, обновите соответствующий источник данных. Обновление будет использовано во время следующего процесса объединения. Например, вы выявили близнецов с почти одинаковыми именами, проживающих по одному и тому же адресу, которые были объединены в одного человека. Обновите источник данных, чтобы идентифицировать близнецов как отдельные уникальные записи.