Поделиться через


Основные понятия служб Data Quality Services

Область применения: SQL Server

В этом разделе содержится краткое описание концепций служб качества данных (DQS) в области управления знаниями, проектов качества данных и администрирования качества данных.

Основные понятия управления знаниями

База знаний DQS — это репозиторий метаданных, создаваемый администратором данных или ИТ-специалистом для использования при улучшении качества данных посредством их очистки и сопоставления. К управлению знаниями DQS относятся процессы, используемые для создания базы знаний и управления ею как в автоматизированном, так и в интерактивном режиме.

Обнаружение набора знаний

Обнаружение знаний — это автоматизированный процесс, в котором анализируются образцы данных организации для построения знаний об этих данных. После получения результатов анализа можно проверить и улучшить знания, а затем применить их для выполнения очистки, сопоставления и профилирования данных. Дополнительные сведения см. в статье DQS Knowledge Bases and Domains.

Управление доменами

Процесс управления доменами позволяет изменить или дополнить знания, сформированные процессом обнаружения знаний. Можно интерактивно изменять, обновлять и просматривать знания в базе знаний. База знаний состоит из доменов данных, содержащих значения доменов и их состояние, правила доменов, связи на основе термина и эталонные данные. При управлении доменами можно изменить свойства домена, прикрепить к домену эталонные данные, управлять правилами доменов, управлять значениями доменов и вводить связи данных, а также создавать, удалять, импортировать и экспортировать домены. Также можно использовать составные домены, которые включают несколько отдельных доменов. Дополнительные сведения см. в статье DQS Knowledge Bases and Domains.

Политика сопоставления

Политика сопоставления содержит правила сопоставления, используемые для выполнения дедупликации данных. Процесс политики сопоставления позволяет создавать правила сопоставления, настраивать их на основе результатов сопоставления и профилирования данных, а также добавлять политику в базу знаний. Дополнительные сведения см. в статье Сопоставление данных.

Службы эталонных данных

С помощью эталонных данных можно проверить, исправить и обогатить данные, воспользовавшись службами компаний, гарантирующих качество своих эталонных данных. Службы Azure Marketplace можно использовать для подключения к ссылочным поставщикам данных или прямого подключения к поставщику. Дополнительные сведения см. в статье Reference Data Services in DQS.

Дополнительные сведения об управлении знаниями в DQS см. в разделе DQS Knowledge Bases and Domains.

Основные понятия проекта служб DQS

Управление данными выполняет операции качества данных (очистка и сопоставление) с помощью проекта качества данных в клиентском приложении "Качество данных".

Очистка данных

Очистка данных в DQS выполняется на основе знаний, хранящихся в базе знаний DQS. Очистка данных в DQS представляет собой двухэтапный процесс.

  • Автоматическая очистка. DQS использует знания из выбранной базы знаний для проекта очистки, чтобы предложить исправления и рекомендации для значений в источнике данных.

  • Интерактивная очистка. Администратор данных может выполнить интерактивный процесс очистки для изменения или дополнения исправлений данных, предложенных автоматизированным процессом очистки данных. Диспетчер данных делает это с помощью уровней достоверности и статистики, определенной процессом очистки данных, или путем ввода вручную собственных изменений проекта.

После очистки данных диспетчер данных может экспортировать обработанные данные в базу данных SQL Server, CSV-файл или файл Excel. Дополнительные сведения см. в статье Data Cleansing.

Data Matching

Процесс сопоставления позволяет диспетчеру данных сравнить данные таким образом, чтобы скорректировать похожие, но слегка отличающиеся данные в процессе дедупликации. Службы DQS выполняют дедупликацию на основе правил сопоставления, содержащихся в базе знаний; диспетчер данных указывает параметры процесса сопоставления из проекта служб DQS. Дополнительные сведения см. в статье Сопоставление данных.

Профилирование и уведомления

Профилирование данных дает диспетчерам данных статистику реального времени и сведения о данных, которые обрабатываются в DQS, для операций очистки или сопоставления при выполнении проекта качества данных. Профилирование данных позволяет оценить эффективность операций очистки и сопоставления в проекте качества данных, а уведомления помогают пользователю выполнять действия для совершенствования операций очистки и сопоставления. Дополнительные сведения см. в разделе Профилирование данных и уведомления в DQS.

Дополнительные сведения о проектах качества данных в DQS см. в разделе "Проекты качества данных" (DQS).

Основные понятия администрирования служб DQS

Администратор DQS может выполнять различные административные задачи с помощью клиентского приложения качества данных.

Мониторинг активности

В ходе мониторинга активности отображаются статус и состояние каждого действия, выполненного в пределах диапазона данных, предоставляются данные по каждому действию. Администраторы DQS могут управлять этими действиями. Дополнительные сведения см. в статье Monitor DQS Activities.

Конфигурация

Параметр «Конфигурация» позволяет выполнять следующие действия.

Безопасность DQS

Роли в рамках механизма обеспечения безопасности SQL Server используются для обеспечения безопасности DQS. Существует три роли DQS, определяющие уровень доступа для пользователя в клиентском приложении "Качество данных": dqs_administrator, dqs_kb_editor и dqs_kb_operator. Вы не можете предоставить роли пользователям с помощью клиентского приложения Data Quality; это делается с помощью СРЕДЫ SQL Server Management Studio. Дополнительные сведения см. в статье DQS Security.

Дополнительные сведения об администрировании DQS см. в разделе DQS Administration.

См. также

Службы Data Quality Services