Лучшие практики унификации данных

Статья
07/24/2024

При настройке правил для объединения ваших данных в профиль клиента примите во внимание следующие рекомендации:

Сбалансируйте время для унификации и полного соответствия. Попытка захватить все возможные совпадения приводит к появлению множества правил, а унификация занимает много времени.
Постепенно добавляйте правила и отслеживайте результаты. Не удаляйте правила, которые не улучшают результат матча.
Дедублируйте каждую таблицу , чтобы каждый клиент был представлен в одной строке.
Используйте нормализацию для стандартизации вариаций в способе ввода данных, например Street vs. St vs. St. vs. st.
Используйте нечеткое сопоставление стратегически для исправления опечаток и ошибок , таких как bob@contoso.com и bob@contoso.cm. Нечеткие совпадения выполняются дольше, чем точные совпадения. Всегда проверяйте, стоит ли дополнительное время, потраченное на нечеткое сопоставление, дополнительной частоты совпадений.
Ограничьте область совпадений с помощью точного соответствия. Убедитесь, что каждое правило с нечеткими условиями имеет хотя бы одно условие точного соответствия.
Не сопоставляйте столбцы, содержащие часто повторяющиеся данные. Убедитесь, что значения столбцов с нечетким сопоставлением не повторяются часто, например значение по умолчанию формы «Имя».

Унификация производительности

Для выполнения каждого правила требуется время. Такие шаблоны, как сравнение каждой таблицы с любой другой таблицей или попытка зафиксировать все возможные совпадения записей, могут привести к длительному времени обработки унификации. Он также возвращает небольшое количество совпадений, если они вообще есть, по плану, который сравнивает каждую таблицу с базовой таблицей.

Лучший подход — начать с базового набора правил, которые, как вы знаете, необходимы, например, со сравнения каждой таблицы с основной таблицей. Ваша основная таблица должна содержать наиболее полные и точные данные. Эту таблицу следует располагать вверху в разделе «Объединение правил сопоставления» шаг.

Постепенно добавляйте несколько правил и смотрите, сколько времени потребуется на внесение изменений и улучшятся ли ваши результаты. Перейдите в Настройки>Система>Статус и выберите Соответствовать чтобы увидеть, сколько времени заняло дедупликация и сопоставление для каждого запуска унификации.

Снимок экрана страницы статуса, показывающий время проведения матча.

Просмотрите статистику правил на страницах Правила дедупликации и Правила сопоставления , чтобы узнать количество Уникальные записи изменения. Если новое правило соответствует некоторым записям, а количество уникальных записей не меняется, значит, эти совпадения были определены предыдущим правилом.

Снимок экрана: страница правил сопоставления, на которой выделены уникальные записи.

Дедупликация

Используйте правила дедупликации для удаления повторяющихся записей о клиентах в таблице, чтобы каждая строка в каждой таблице представляла каждого клиента. Хорошее правило идентифицирует уникального клиента.

В этом простом примере записи 1, 2 и 3 имеют общий адрес электронной почты или телефон и представляют одного и того же человека.

Идентификатор	Полное имя	Номер телефона	Электронное письмо
1	Пользователь 1	(425) 555-1111	AAA@A.com
2	Пользователь 1	(425) 555-1111	BBB@B.com
3	Пользователь 1	(425) 555-2222	BBB@B.com
4	Пользователь 2	(206) 555-9999	Person2@contoso.com

Мы не хотим сопоставлять только имя, так как это будет соответствовать разным людям с одним и тем же именем.

Создайте правило 1, используя имя и телефон, которое соответствует записям 1 и 2.
Создайте правило 2, используя имя и адрес электронной почты, которое соответствует записям 2 и 3.

Комбинация правила 1 и правила 2 создает одну группу совпадений, поскольку они используют общую запись 2.

Вы сами определяете количество правил и условия, которые однозначно идентифицируют ваших клиентов. Точные правила зависят от имеющихся у вас данных для сопоставления, качества ваших данных и того, насколько исчерпывающим должен быть процесс дедупликации.

Победитель и альтернативные записи

После запуска правил и выявления повторяющихся записей процесс дедупликации выбирает «строку-победитель». Невыигрышные строки называются «альтернативными строками». Альтернативные строки используются в унификации правил сопоставления шаг для сопоставления записей из других таблиц со строкой-победителем. Строки сопоставляются с данными в альтернативных строках в дополнение к строке-победителю.

Добавив правило в таблицу, вы можете настроить, какую строку выбрать в качестве строки-победителя, с помощью Объединить настройки. Параметры объединения устанавливаются для каждой таблицы. Независимо от того, какая политика объединения выбрана, если не удается определить строку-победителя (ничья), то первая строка в порядке данных используется в качестве разрешения этой ситуации.

Нормализация

Используйте нормализацию для стандартизации данных для лучшего соответствия. Нормализация хорошо работает с большими наборами данных.

Нормализованные данные используются только в целях сравнения, чтобы более эффективно сопоставлять записи клиентов. Это не меняет данные в окончательном выводе единого профиля клиента.

Нормализация	Примеры
Цифры	Преобразует множество символов Юникода, представляющих числа, в простые числа. Примеры: ❽ и Ⅷ нормализованы до числа 8. Примечание. Символы должны быть закодированы в формате точек Unicode.
Тикеры	Удаляет символы и специальные знаки. Примеры: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Текст в нижний регистр	Преобразует символы верхнего регистра в нижний регистр. Пример: «ЭТО ПРИМЕР» преобразуется в «Это пример».
Тип — телефон	Преобразует телефоны различных форматов в цифры и учитывает различия в представлении кодов стран и добавочных номеров. Пример: +01 425.555.1212 = 1 (425) 555-1212
Тип — имя	Преобразует более 500 распространенных вариантов имен и названий. Примеры: «debby» —> «deborah», «профессор» и «проф» -> «Проф.»
Тип — адрес	Преобразует общие части адресов Примеры: «улица» -> «ул.» и «северо-запад» -> "СЗ"
Тип — Организация	Удаляет около 50 «шумных» названий компаний, таких как «co», «corp», «corporation» и «ltd».
Unicode в ASCII	Преобразует символы Unicode в эквивалентные буквы ASCII Пример: символы «à», «á», «â», «À», «Á», «Â», «Ã», «Ä», «Ⓐ» и «Ａ». все преобразуются в «a».
Пробел	Удаляет все пробельные символы
Сопоставление псевдонима	Позволяет отправить пользовательский список пар строк, который затем можно использовать для обозначения строк, которые всегда следует считать точным совпадением. Используйте сопоставление псевдонимов, если у вас есть конкретные примеры данных, которые, по вашему мнению, должны совпадать, но не сопоставляются с использованием одного из других шаблонов нормализации. Пример: Скотт и Скутер или MSFT и Microsoft.
Пользовательский пропуск	Позволяет отправить пользовательский список строк, который затем можно использовать для обозначения строк, которые никогда не следует считать совпадением. Пользовательский обход полезен, когда у вас есть данные, имеющие общие значения, которые следует игнорировать, например фиктивный номер телефона или фиктивный адрес электронной почты. Пример: Никогда не сопоставляйте телефон 555-1212 или test@contoso.com

Точное совпадение

Используйте точность, чтобы определить, насколько близкими должны быть две строки, чтобы считаться совпадающими. Настройка точности по умолчанию требует точного соответствия. Любое другое значение включает нечеткое сопоставление для этого условия.

Точность можно установить на низкую (совпадение 30%), среднюю (совпадение 60%) и высокую (совпадение 80%). Или вы можете настроить и установить точность с шагом 1%.

Точные условия совпадения

Сначала выполняются условия точного соответствия, чтобы получить меньший набор значений для нечеткого соответствия. Чтобы быть эффективными, условия точного совпадения должны иметь разумную степень уникальности. Например, если все ваши клиенты живут в одной стране, то точное соответствие страны не поможет сузить область охвата.

Такие столбцы, как полное имя, адрес электронной почты, телефон или адрес, обладают хорошей уникальностью и являются отличными столбцами для точного соответствия.

Убедитесь, что в столбце, который вы используете для условия точного соответствия, нет часто повторяющихся значений, например значения по умолчанию «Имя», полученного формой. Аналитика клиентов позволяет профилировать столбцы данных, чтобы получить представление о наиболее часто повторяющихся значениях. Вы можете включить профилирование данных в подключениях Azure Data Lake (с использованием общей модели данных или формата Delta) и Synapse. Профиль данных запускается при следующем обновлении источник данных. Для получения дополнительной информации перейдите к разделу Профилирование данных.

Нечеткое соответствие

Используйте нечеткое сопоставление для сопоставления строк, которые близки, но не точны из-за опечаток или других небольших различий. Используйте нечеткое сопоставление стратегически, поскольку оно медленнее, чем точное совпадение. Убедитесь, что в любом правиле, содержащем нечеткие условия, есть хотя бы одно условие точного соответствия.

Нечеткое сопоставление не предназначено для сбора вариантов имен, таких как Суззи и Сюзанна. Эти варианты лучше фиксируются с помощью шаблона нормализации Тип: Имя или пользовательского Сопоставления псевдонимов , где клиенты могут ввести свои собственный список вариантов имен, которые они хотят считать совпадающими.

В правило можно добавить условия, например сопоставление имени и телефона. Условия внутри данного правила — это условия «И»; каждое условие должно выполняться, чтобы строки были сопоставлены. Но отдельные правила — это условия «ИЛИ». Если Правило 1 не соответствует строкам, строки сравниваются с Правилом 2.

Заметка

Только столбцы строкового типа данных могут использовать нечеткое соответствие. Для столбцов с другими типами данных, такими как целое число, число двойной точности или дата и время, поле точности установлено на точное совпадение и доступно только для чтения.

Расчеты нечеткого соответствия

Нечеткие соответствия создаются путем вычисления оценки расстояния редактирования для двух строк. Если оценка соответствует порогу точности или превышает его, строки считаются совпадающими.

Расстояние редактирования — это количество правок, необходимых для преобразования одной строки в другую путем добавления, удаления или изменения символа.

Например, строки «Жаклин» и «Жаклин» имеют расстояние редактирования, равное пяти, когда мы удаляем символы q, u, e, i и e и вставляем символ y.

Базовый расчет для определения оценки расстояния редактирования: (длина базовой строки – расстояние редактирования) / длина базовой строки.

Базовая строка	Строка сравнения	Балл
Jacqueline	Jaclyne	(10-4)/10 = 0,6
fred@contoso.com	fred@contso.cm	(14-2) / 14 = 0,857
franklin	frank	(8-3) / 8 = 0,625

Поделиться через