Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Область применения:SQL Server
Внимание
Службы качества данных (DQS) удаляются в SQL Server 2025 (17.x). Мы продолжаем поддерживать DQS в SQL Server 2022 (16.x) и более ранних версиях.
В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Хотя все этапы выполнения действия очистки остаются неизменными для очистки данных с помощью знаний от эталонных поставщиков данных, как описано в разделе "Очистка данных с помощью внутренних знаний", эта статья содержит сведения, относящиеся к очистке данных с помощью службы ссылочных данных в службах качества данных (DQS).
Внимание
В этой статье упоминаются сторонние службы ссылочных данных, которые ранее были доступны из Azure DataMarket. DataMarket и службы Data Services, включая адресные данные Melissa, были прекращены после 31 декабря 2016 г. Таким образом, вы больше не можете запускать примеры в этой статье с помощью указанных служб из DataMarket. По-прежнему можно использовать службы эталонных данных, доступные через Интернет напрямую от сторонних поставщиков.
При использовании функции службы ссылочных данных в DQS для очистки данных, процесс очистки данных в DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде запроса пакетной обработки. Служба ссылочных данных в ответ отправляет следующие сведения:
Предлагаемые исправления
Достоверность
Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.
После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.
На основе значений Пороговое значение автоматического исправления и Минимальная достоверность , заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.
Примечание.
Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка . Сведения об указании пороговых значений для очистки эталонных данных см. в шаге 9 в разделе Подсоединение обычного или составного домена к эталонным данным.
Значения доменов категоризируются следующим образом: Предложено, Новый, Недопустимый, Исправленои Правильно.
Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.
Перед началом
Предварительные условия
Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в разделе Добавление домена или составного домена к ссылочным данным.
Безопасность
Разрешения
Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.
Очищайте ваши данные, используя знания о справочных данных
Мы будем продолжать использовать тот же пример использования доменов, сопоставленных в предыдущем разделе, Присоединение домена или составного домена к ссылочным данным с помощью службы данных Мелисса в Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Шаги по очистке данных такие же, как описано в Очистка данных с использованием внутренней информации DQS. Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.
Создайте проект по улучшению качества данных и выберите действие Очистка. См. раздел Create a Data Quality Project.
На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штати Почтовый индекс. Нажмите кнопку Далее.
Примечание.
После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов , очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.
На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.
Примечание.
На странице Очистка служба DQS отображает информацию о доменах, подключенных к службе ссылочных данных, следующими двумя способами.
- Сообщение отображается под кнопкой Пуск: "Доменные имена <Domain1>, <Domain2>, ... <DomainN> очищаются с помощью поставщика служб ссылочных данных". В этом примере отобразится следующее сообщение: "Проверка адреса домена очищается с помощью поставщика служб ссылочных данных".
- Значок
отображается в области Профилировщик напротив доменов, присоединенных к поставщику службы ссылочных данных. В этом примере значок будет отображаться напротив составного домена Проверка адресов .
На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.
Исходное значение:
Строка адреса Город Штат Почтовый индекс 1 Майкрософт Уэй Редмонд 98052 Предлагаемые значения:
Строка адреса Город Штат Почтовый индекс 1 Microsoft Way Редмонд WA 98052 PO Box 1 Редмонд WA 98073
Примечание.
Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат , поэтому они выделены голубым.
После окончания просмотра всех значений домена нажмите кнопку Далее , чтобы экспортировать данные.
Обратите внимание, что на странице Экспорт , помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.
Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово , чтобы закрыть проект.
Внимание
Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.