Поделиться через


Очистка данных в составном домене

Область применения: SQL Server

В этом разделе содержатся сведения о очистке составных доменов в службах качества данных (DQS). Составной домен состоит из нескольких отдельных доменов и соответствует полю данных, которое включает несколько связанных терминов. Отдельные домены в составном домене должны иметь общие области набора знаний. Дополнительные сведения о составных доменах см. в разделе Managing a Composite Domain.

Сопоставление составного домена с исходными данными

Существует два способа сопоставления исходных данных с составным доменом.

  • Исходные данные соответствуют одному полю (например, это "Полное имя"), которое сопоставляется с составным доменом.

    • Если составной домен сопоставлен со службой ссылочных данных, то исходные данные будут отправлены в службу ссылочных данных без изменений для исправления и анализа.

    • Если составной домен не сопоставлен со службой ссылочных данных, то исходные данные будут проанализированы с использованием метода, определенного для составного домена. Дополнительные сведения об указании метода анализа для составных доменов см. в разделе Create a Composite Domain.

  • Исходные данные состоят из нескольких полей (например, это "Имя", "Отчество" и "Фамилия"), которые сопоставлены с отдельными доменами внутри составного домена.

Пример сопоставления составных доменов с исходными данными см. в разделе Подсоединение обычного или составного домена к эталонным данным.

Коррекция данных с использованием определительных междоменных правил

Междоменные правила в составном домене позволяют определять отношения между отдельными доменами в составном домене. Междоменные правила учитываются при выполнении очистки для исходных данных с использованием составных доменов. Помимо информирования о выполнении междоменного правила определительное междоменное правило Then , Value is equal to, также исправляет данные во время проведения очистки данных.

Рассмотрим следующий пример. Имеется составной домен Product с тремя отдельными доменами: ProductName, CompanyName и ProductVersion. Создайте следующее определительное междоменное правило:

ЕСЛИ значение "CompanyName" для домена содержит Microsoft, значение "ProductName" для домена равно Office и значение "ProductName" для домена равно 2010, ТО значение "ProductName" для домена равно Microsoft Office 2010.

При применении этого междоменного правила исходные данные (ProductName) после очистки исправляются на следующие:

Исходные данные

НаименованиеПродукта CompanyName ProductVersion
Office Microsoft Inc. 2010

Выходные данные

НаименованиеПродукта CompanyName ProductVersion
Microsoft Office 2010; Microsoft Inc. 2010

При тестировании определительного междоменного правила Then , Value is equal toдиалоговое окно Тестирование правила для составного домена содержит новый столбец Исправить на, в котором отображаются правильные данные. В проекте качества данных очистки это окончательное междомовое правило изменяет данные с уверенностью в 100 %, а столбец "Причина " отображает следующее сообщение: исправлено правилом "<Междоменные имя> правила". Дополнительные сведения о междоменных правилах см. в разделе Create a Cross-Domain Rule.

Примечание.

Определительное междоменное правило не работает для составных доменов, присоединенных к службе ссылочных данных.

Профилирование данных для составных доменов

Профилирование служб DQS предоставляет два измерения качества данных: полнота (степень, в которой представлены данные) и точность (степень, в которой данные могут использоваться по намеченному назначению) во время очистки. Профилирование может не предоставлять надежных статистических данных по полноте для составных доменов. Если требуются статистические данные по полноте, используйте одиночные домены вместо составных. Если необходимо использовать составные домены, то может потребоваться создать одну базу знаний с одиночными доменами для профилирования в целях определения полноты и создать еще одну базу данных с составным доменом для процесса очистки. Например, профилирование может показать полноту 95% для записей адреса в составном домене, но для одного из столбцов (например, столбца почтового индекса) уровень неполноты может оказаться гораздо больше. В этом примере может потребоваться измерить полноту столбца почтового индекса с помощью одиночного домена.

Профилирование с большей вероятностью вы можете предоставить надежные статистические данные по точности для составных доменов, поскольку позволяет измерить точность для нескольких столбцов вместе. Значение этих данных находится в составном агрегате, поэтому может потребоваться измерить точность с помощью составного домена.

Подробные сведения о профилировании данных во время действия очистки см. в разделе "Статистика профилировщика" в разделе "Очистка данных" с помощью знаний DQS (Внутренние).