Общие сведения о службах Data Quality Services

Решение по обеспечению качества данных, предоставляемое Службы Data Quality Services (DQS), позволяет диспетчеру данных или ИТ-специалисту поддерживать качество данных и обеспечивать их пригодность к бизнес-использованию. DQS — это решение на основе знаний, которое обеспечивает автоматизированные и интерактивные способы управления целостностью и качеством источников данных. DQS позволяет обнаруживать знания о данных, строить наборы знаний и управлять ими. Затем эти знания вы можете использовать для выполнения очистки, сопоставления и профилирования данных. Также вы можете использовать облачные службы поставщиков эталонных данных в проекте качества данных DQS.

В этом разделе

  • Потребность бизнеса в DQS

  • DQS — ответ на потребности

  • Решение на основе знаний

  • Компоненты DQS

  • Функции качества данных в службах Integration Services и Master Data Services

Потребность бизнеса в DQS

Неверные данные появляются из-за ошибок при вводе данных пользователем, из-за повреждения при передаче или хранении, из-за ошибок в определениях словаря данных и других проблем с качеством и обработкой данных. Статистическая обработка данных из разных источников, использующих различные стандарты, а также применение произвольных правил и перезапись прежних данных может привести к несогласованности в данных. Неверные данные мешают компании вести бизнес и предоставлять услуги клиентам, что приводит к неудовлетворенности клиентов и потере их доверия, падению доходов и проблемам с обеспечением соответствия нормативам. Автоматические системы часто не работают с неверными данными, и люди тратят время и силы на выполнение операций вручную. Неверные данные могут иметь катастрофические последствия в анализе данных, составлении отчетов, интеллектуальном анализе данных и работе хранилища.

Высокое качество данных исключительно важно для эффективной работы коммерческих организаций и учреждений. Организация любого размера может использовать DQS для повышения информационной ценности данных, чтобы сделать их более подходящими для целевого использования. Решение по обеспечению качества данных делает данные более надежными, более доступными и повышает коэффициент их повторного использования. Это может повысить полноту, адекватность и согласованность данных, устранить проблемы, вызванные некорректными данными в приложениях бизнес-аналитики и в рабочей нагрузке хранилища данных, а также в действующих системах OLTP.

DQS позволяет бизнес-пользователям, информационным работникам и ИТ-специалистам, не имеющим большого опыта в работе с БД и не являющимся программистами, создавать, сопровождать и выполнять операции по обеспечению качества данных в организации с минимальными затратами времени на установку и подготовку.

Значок стрелки, используемый со ссылкой «В начало»[В начало]

DQS — ответ на потребности

Качество данных не определяется в абсолютном выражении. Оно зависит от того, насколько данные подходят для выполнения исходной задачи. DQS выявляет потенциально неверные данные и дает оценку вероятности фактических ошибок в данных. DQS дает семантическое представление о данных, позволяющее оценить их пригодность. DQS позволяет устранять проблемы, связанные с неполнотой данных, несоответствием стандартам, несогласованностью, неточностью, недопустимостью данных, и исключать дублирование данных.

DQS предоставляет следующие функции для устранения проблем с качеством данных.

  • Очистка данных: изменение, удаление или дополнение неверных или неполных данных с использованием автоматических и интерактивных процедур. Дополнительные сведения см. в разделе Очистка данных.

  • Сопоставление: выявление семантических дубликатов в процессе, основанном на правилах, который позволяет определить содержание сопоставления и исключение дубликатов. Дополнительные сведения см. в разделе Сопоставление данных.

  • Службы эталонных данных: проверка качества данных с использованием служб поставщика эталонных данных. Вы можете использовать службы эталонных данных из Windows Azure Marketplace DataMarket для простой очистки, проверки, сопоставления и дополнения данных. Дополнительные сведения см. в разделе Службы эталонных данных в DQS.

  • Профилирование: анализ источника данных для получения представления о качестве данных на каждом этапе процессов обнаружения знаний, управления доменами, сопоставления и очистки данных. Профилирование является мощным средством в решении по обеспечению качества данных DQS. Вы можете создать решение по обеспечению качества данных, где профилирование будет столь же важно, как управление знаниями, сопоставление и очистка данных. Дополнительные сведения см. в разделе Профилирование данных и уведомления в DQS.

  • Мониторинг: отслеживания и определение состояния операций по обеспечению качества данных. Мониторинг позволяет убедиться, что решение по обеспечению качества данных работает надлежащим образом. Дополнительные сведения см. в разделе Администрирование DQS.

  • База знаний. Службы Data Quality Services — это решение, которое анализирует данные на основе набора знаний, построенного с помощью DQS. Это позволяет создавать процессы по обеспечению качества данных, которые постоянно совершенствуют знания о данных и при этом постоянно повышают их качество.

На следующем рисунке показан процесс DQS.

Обработка DQS

Значок стрелки, используемый со ссылкой «В начало»[В начало]

Решение на основе знаний

База знаний DQS является репозиторием трех типов знаний: готовые знания, знания, составленные Сервер DQS, и знания, составленные пользователем. DQS позволяет хранить знания о данных в базе знаний, добавлять бизнес-правила и изменять знания по мере необходимости, а затем применять их для проверки целостности и правильности данных. После построения базы знаний вы можете постоянно совершенствовать ее и многократно использовать в различных процессах по повышению качества данных.

Знания в базе знаний определяют возможные ошибки в неверных данных и предлагают изменения в данных. Знания могут находить сопоставления в данных, что позволяет исключать дубликаты. С помощью знаний можно сравнивать исходные данные с облачными эталонными данными, которые сопровождаются и сертифицируются поставщиками качества данных. Диспетчер данных или ИТ-специалист проверяет знания в базе знаний и изменения, которые должны вноситься в данные, а затем выполняет операции очистки данных, исключения дубликатов и сверки с эталонными данными.

В базе знаний хранятся все знания, связанные с определенным типом источника данных. Например, можно вести одну базу знаний для базы данных клиентов, а другую — для базы данных сотрудников. Знания содержатся в одном или нескольких доменах данных, каждый из которых является семантическим представлением типа данных в поле данных. База знаний для базы данных клиентов может содержать домены для названий компаний, адресов, контактов, контактных сведений и т. д. Домен содержит список доверенных значений, недопустимых значений и ошибочных данных. Знания домена содержат взаимосвязи синонимов, связи терминов, правила проверки и бизнес-правила, а также политики сопоставления. Используя эти знания, диспетчер данных может принять информированное решение о том, следует ли исправлять определенные экземпляры значений в домене.

DQS позволяет выполнять операции импорта и экспорта с базой знаний. Вы можете импортировать или экспортировать домены или базы знаний с помощью DQS-файла. Вы можете импортировать значения или домены из файла Excel. Также вы можете импортировать значения, обнаруженные в процессе очистки на основе базы знаний, обратно в домен. Эти операции позволяют постоянно совершенствовать базу знаний, гарантируя обратную передачу знаний, полученных при обнаружении и принятии решений, в базу знаний.

В решении DQS, основанном на знаниях, применяются два важных шага очистки данных.

  • Процесс управления знаниями, который создает базу знаний

  • Проект качества данных, который предлагает изменения в исходных данных на основе знаний в базе знаний.

Дополнительные сведения см. в разделах Базы знаний и домены DQS и Проекты служб Data Quality Services (DQS).

Значок стрелки, используемый со ссылкой «В начало»[В начало]

Компоненты DQS

Службы Data Quality Services состоят из Сервер DQS и Клиент Data Quality. Эти компоненты позволяют выполнять функции обеспечения качества данных отдельно от других операций SQL Server. И то и другое можно установить из программы установки SQL Server.

Сервер DQS реализован в виде трех каталогов SQL Server, управление которыми и наблюдение за которыми ведется в среде SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS и DQS_STAGING_DATA). DQS_MAIN включает хранимые процедуры DQS, подсистему DQS и опубликованные базы знаний. DQS_PROJECTS включает данные, необходимые для управления базой знаний и операциями проекта DQS. DQS_STAGING_DATA предоставляет промежуточную базу данных для копирования исходных данных с целью выполнения операций DQS и последующего экспорта обработанных данных.

Клиент Data Quality — это изолированное приложение, позволяющее выполнять операции управления знаниями, проекты качества данных и административные задачи в одном пользовательском интерфейсе. Это приложение предназначено для диспетчеров данных и администраторов DQS. Это изолированный исполняемый файл, выполняющий обнаружение знаний, управление доменами, создание политик сопоставления, очистку данных, сопоставление данных, профилирование данных, мониторинг данных и администрирование сервера. Клиент Data Quality может устанавливаться и работать на одном компьютере с Сервер DQS или на отдельном компьютере в удаленном режиме. Многие операции в Клиент Data Quality выполняются мастерами для удобства использования.

Значок стрелки, используемый со ссылкой «В начало»[В начало]

Функции качества данных в службах Integration Services и Master Data Services

Функции качества данных, предоставляемые службами Data Quality Services, встроены в компонент служб SQL Server Integration Services (SSIS) и в компоненты служб Master Data Services (MDS), что позволяет выполнять процессы по обеспечению качества данных в пределах этих служб.

Компонент DQS Cleansing служб Integration Services

Службы Компонент DQS Cleansing служб Integration Services позволяют выполнять очистку данных в рамках пакета служб Integration Services. Когда пакет запускается, очистка данных выполняется в виде пакетного файла. Это альтернатива выполнению проекта очистки в приложении Клиент Data Quality. Вы можете автоматически обеспечить качество данных. Не нужно выполнять интерактивные действия в рамках проекта очистки данных в приложении Клиент Data Quality. Вы можете включить процесс очистки данных в поток данных, содержащий другие компоненты служб Integration Services. Дополнительные сведения см. в разделе Преобразование «Очистка DQS».

Процессы качества данных в службах Master Data Services

Службы Data Quality Services интегрированы в службы Master Data Services (MDS), что позволяет исключать дубликаты в исходных данных и основных данных в рамках надстройки Microsoft SQL Server 2012 Master Data Services для Microsoft Excel. Для выполнения сопоставления загрузите данные, управляемые службами MDS, в лист Excel, и объедините их с данными, не управляемыми службами MDS, а затем осуществите сопоставление в рамках Excel. Компоненты Сервер DQS должны устанавливаться вместе с MDS. Дополнительные сведения см. в разделе Сопоставление качества данных в надстройке MDS для Excel.

Значок стрелки, используемый со ссылкой «В начало»[В начало]

См. также

Основные понятия

Возможности, поддерживаемые различными выпусками SQL Server 2012

Другие ресурсы

Видео. Основы обеспечения качества данных и общие сведения о службах Data Quality Services (DQS)