Поделиться через


Очистка данных с помощью эталонных данных (внешних) — службы качества данных (DQS)

Применимо к:SQL Server

В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Хотя все этапы выполнения действия очистки остаются неизменными для очистки данных с помощью знаний от эталонных поставщиков данных, как описано в разделе "Очистка данных с помощью внутренних знаний", эта статья содержит сведения, относящиеся к очистке данных с помощью службы ссылочных данных в службах качества данных (DQS).

Внимание

В этой статье упоминаются сторонние службы ссылочных данных, которые ранее были доступны из Azure DataMarket. DataMarket и службы Data Services — включая данные об адресах Melissa — не поддерживаются после 31 декабря 2016 г. Таким образом, вы больше не можете запускать примеры в этой статье с помощью указанных служб из DataMarket. По-прежнему можно использовать службы эталонных данных, доступные через Интернет напрямую от сторонних поставщиков.

При очистке данных с использованием функции службы ссылочных данных в DQS процесс очистки служб DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде пакетного запроса. Служба ссылочных данных в ответ отправляет следующие сведения:

  • Предлагаемые исправления

  • Достоверность

  • Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.

После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.

  • На основе значений Пороговое значение автоматического исправления и Минимальная достоверность , заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.

    Заметка

    Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка . Сведения об указании пороговых значений для очистки эталонных данных см. в шаге 9 в разделе Подсоединение обычного или составного домена к эталонным данным.

  • Значения доменов категоризируются следующим образом: Предложено, Новый, Недопустимый, Исправленои Правильно.

  • Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.

Перед началом

Предварительные условия

Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в разделе Добавление домена или составного домена к ссылочным данным.

Безопасность

Разрешения

Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.

Очистка данных с использованием набора знаний о ссылочных данных

Мы будем продолжать использовать тот же пример использования доменов, сопоставленных в предыдущем разделе, Присоединение домена или составного домена к ссылочным данным с помощью службы данных Мелисса в Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Действия по очистке данных совпадают с инструкциями, описанными в разделе "Очистка данных с помощью внутренних знаний DQS". Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.

  1. Создайте проект служб DQS и выберите действие Очистка . См. раздел Create a Data Quality Project.

  2. На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штати Почтовый индекс. Нажмите кнопку Далее.

    Заметка

    После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов , очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.

  3. На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.

    Заметка

    На странице Очистка службы DQS отображают сведения о доменах, присоединенных к службе ссылочных данных, двумя способами.

    • Сообщение отображается под кнопкой "Пуск": "Domain1<>, <Domain2,...><Доменные имена> очищаются с помощью поставщика служб ссылочных данных". В этом примере отобразится следующее сообщение: "Проверка адреса домена очищается с помощью поставщика служб ссылочных данных".
    • Значок Domain is attached to RDSотображается в области Профилировщик напротив доменов, присоединенных к поставщику службы ссылочных данных. В этом примере значок будет отображаться напротив составного домена Проверка адресов .
  4. На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.

    Исходное значение:

    Строка адреса Город Штат Почтовый индекс
    1 msft way Redmond 98052

    Предлагаемые значения:

    Строка адреса Город Штат Почтовый индекс
    1 Microsoft Way Redmond WA 98052
    PO Box 1 Redmond WA 98073

    Cleansing using reference data service

    Заметка

    Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат , поэтому они выделены голубым.

  5. После окончания просмотра всех значений домена нажмите кнопку Далее , чтобы экспортировать данные.

  6. Обратите внимание, что на странице Экспорт , помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.

  7. Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово , чтобы закрыть проект.

    Внимание

    Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.