Базы знаний и домены DQS
Область применения: SQL Server
В этом разделе описывается, что база знаний находится в службах качества данных (DQS). Для очистки данных необходимо иметь знания об этих данных. Чтобы подготовить знания для проекта качества данных, строится и ведется база знаний, которая используется DQS для выявления неверных или недопустимых данных. DQS позволяет использовать автоматические и интерактивные процессы для создания, построения и обновления базы знаний. Знания в базе знаний хранятся в доменах, каждый из которых относится к некоторому полю данных. База знаний является репозиторием знаний о данных, который дает представление о данных и помогает поддерживать их целостность.
Базы знаний DQS дают следующие преимущества.
Детальный процесс построения знаний о данных. Автоматическое извлечение знаний о данных в DQS по выборке данных значительно упрощает процесс.
DQS позволяет просматривать анализ данных и дополнять знания в базе знаний, создавая правила и изменяя значения данных. Это вы можете делать многократно, повышая качество знаний со временем.
Вы можете использовать готовые знания о качестве данных, создав базу знаний на основе существующей базы, импортировав знания о доменах из файлов в базу знаний, а также путем импорта знаний из проекта обратно в базу знаний или путем использования базы знаний DQS по умолчанию, которая называется DQS Data.
Качество данных вы можете обеспечить, сравнивая их с данными, которые предоставляются поставщиком эталонных данных.
Процессы построения базы знаний и применения ее в процессе исправления данных четко различаются. Это обеспечивает гибкость в построении и обновлении базы знаний.
Управление данными использует клиентское приложение "Качество данных" как для выполнения, так и управления действиями на компьютере, а также для выполнения интерактивных действий.
На следующем рисунке показаны различные компоненты в базе знаний и домене в DQS:
Создание и построение базы знаний DQS
В построении базы знаний DQS участвуют следующие процессы и компоненты:
Обнаружение набора знаний
Автоматический процесс, собирающий знания в базу знаний, обрабатывает выборку данных.
Управление доменами
Интерактивный процесс, позволяющий диспетчеру данных проверить и изменить знания, находящиеся в доменах базы знаний, каждый из которых связан с некоторым полем данных. К изменениям относится задание свойств, действующих в рамках поля, создание правил, изменение отдельных значений, использование служб эталонных данных и задание связей на основе терминов или связей между полями данных.
Службы эталонных данных
Процесс управления доменами, который позволяет проверить данные по данным, обслуживание и качество которых гарантируется поставщиком эталонных данных.
Политика сопоставления
Политика, которая определяет, как DQS обрабатывает записи, чтобы выявить потенциальные дубликаты и несовпадающие записи, и встроена в базу знаний в автоматическом и интерактивном процессе.
Обнаружение набора знаний
Первоначально процесс создания базы знаний направляется компьютером. Операция обнаружения знаний выполняет построение базы знаний путем анализа выборки по критериям качества данных для выявления нарушений согласованности и синтаксических ошибок, а затем предлагает изменения в данных. Этот анализ основан на алгоритмах, встроенных в DQS.
Диспетчер данных готовит процесс к обработке. Он связывает базу знаний с таблицей или представлением в базе данных SQL Server, где находится образец данных, схожий с тем, который будет базой знаний для анализа. Диспетчер данных сопоставляет домен базы знаний с каждым столбцом образца данных, который будет анализироваться. Домен может быть отдельным, который сопоставляется с отдельным полем, или составным, который состоит из нескольких отдельных доменов, каждый из которых сопоставлен с частью данных в отдельном поле (см. далее подраздел "Составные домены"). Когда запускается обнаружение знаний, службы DQS извлекают из образца данных сведения о данных и помещают их в домены в базе знаний. После анализа обнаружения знаний создается база знаний, с помощью которых вы можете выполнять исправление данных.
База знаний DQS является расширяемой. В рамках операции обнаружения знаний можно интерактивно добавлять знания в базу знаний после автоматического анализа обнаружения знаний. Вы можете вручную добавлять изменения в значениях и импортировать значения доменов из файла Excel. Кроме того, можно выполнять процесс обнаружения знаний позднее, когда изменятся данные примеров. Вы можете применять дополнительные знания в рамках операции управления доменами и операции сопоставления данных (см. далее).
Процесс обнаружения набора знаний не обязательно выполнять на тех же данных, где будут вноситься исправления. Службы DQS обеспечивают гибкие возможности создания набора знаний из одного набора полей базы данных и применения этих знаний ко второму набору соответствующих данных, которые должны быть очищены. Диспетчер данных может создать новую базу знаний с нуля или на основе существующей базы знаний, а также импортировать базу из файла данных. Вы можете повторно выполнить обнаружение знаний в существующей базе знаний. Вы можете поддерживать несколько база знаний на одном сервере качества данных. К одной базе знаний можно подключить несколько экземпляров приложения. Службы DQS предотвращают конфликты параллелизма, блокируя базы знаний для пользователя, который открывает сеанс управления знаниями в базе знаний.
Учет регистра в DQS
В DQS не учитывается регистр значений. Это значит, что, когда DQS выполняет обнаружение знаний, управление доменами или сопоставление, значения не различаются по регистру. Если в рамках управления значениями добавляется значение, которое отличается от другого значения только регистром, то они будут считаться одним значением, а не синонимами. Если два значения, которые различаются только регистром, сравниваются в процессе сопоставления, то они будут считаться точным совпадением.
Однако регистр значений вы можете учитывать при экспорте результатов очистки. Для этого необходимо задать свойство "Формат выходных данных" (см. раздел "Задать свойства домена") и с помощью флажка "Стандартный вывод" при экспорте результатов очистки (см. раздел "Очистка данных с помощью внутренних знаний").
Управление доменами
Управление доменами позволяет диспетчеру данных интерактивно изменять и дополнять метаданные, создаваемые в рамках автоматической операции обнаружения знаний. Каждое вносимое изменение относится к домену базы знаний. В операции управления доменами вы можете выполнять следующие действия.
Создание нового домена. Новый домен может быть связан с существующим доменом или скопирован из него.
Задание свойств домена, относящихся к каждому термину в домене.
Применение правил домена, выполняющих проверку или стандартизацию для определенного диапазона значений.
Интерактивное применение изменений к отдельному значению данных в домене.
Использование проверки орфографии DQS для проверки синтаксиса, орфографии и структуры предложений в строковых значениях.
Импорт домена из DQS-файла данных или значений домена из файла Microsoft Excel.
Импорт значений, обнаруженных в процессе очистки в проекте качества данных, обратно в базу знаний.
Присоединение домена к эталонным данным, которые предоставляются поставщиком эталонных данных с последующим сравнением значений домена с эталонными данными для определения их целостности и правильности. Также вы можете задать параметры поставщика данных.
Применение связей на основе терминов для отдельного домена.
Когда операция управления доменами завершается, вы можете опубликовать базу знаний для использования в проекте данных.
Задание свойств домена
Свойства домена определяют и направляют обработку, которая применяется к связанным значениям. Вы можете задать тип данных и язык для значений, указать, что исходные данные будут удаляться с ведущим значением (если этот флажок не установлен, исходные данные будут удалены с правильным термином, но не с ведущим значением), обеспечить стандартизацию данных, настроив форматирование, которое применяется при выдаче данных в домене, и определить, какие алгоритмы (проверки синтаксических ошибок, правописания и нормализации строк) будут применяться.
Службы эталонных данных
В процессе управления доменами вы можете присоединить к домену эталонные данные из сети. Таким образом данные в домене сравниваются с данными, которые предоставляются поставщиком эталонных данных. Сначала необходимо настроить поставщик ссылочных данных с помощью возможностей конфигурации DQS в разделе администрирования клиентского приложения "Качество данных". Дополнительные сведения см. в статье Reference Data Services in DQS.
Применение правил домена
Вы можете создать правила домена для проверки данных. Правило проверки домена обеспечивает точность данных, от простых ограничений, например ограничения возможных терминов, которые может содержать строковое значение, до более сложных регулярных выражений, например задания допустимых форматов адреса электронной почты.
Для составного домена вы можете создать правило CD, которое задает связь между значением в одном домене, входящем в составной домен, и значением в другом домене, входящем в этот же составной домен.
Задание значений домена
После построения базы знаний вы можете заполнить и отобразить значения данных в каждом домене базы знаний. После обнаружения знаний DQS показывает, сколько раз встречается каждый термин, какое состояние он имеет и какие предлагаются исправления. Этими знаниями вы можете управлять следующим образом.
Изменять состояние значения: правильное, ошибочное, недопустимое.
Добавлять определенное значение в базу знаний или удалять из базы определенное значение.
Изменить связь между двумя значениями, в том числе назначать замену для ошибочного или недопустимого термина.
Добавлять, удалять и изменять знания, связанные с доменом.
Значения могут явно создаваться пользователем или создаваться в рамках обнаружения данных или процесса импорта. Это позволяет выстроить домен в соответствии с задачами бизнеса и делает его легко расширяемым.
Значения домена вы можете задавать в рамках операции управления доменами или на шаге «Управление значениями домена» в конце операции обнаружения знаний. Функции значений домена одинаковы в обеих операциях.
Задание связей терминов
В рамках управления доменами вы можете указать связь терминов для одного домена, задав изменение для единичного значения.
Составные домены
Составной домен — это структура, состоящая из нескольких доменов, каждый из которых содержит знания об общих данных. Примеры данных, которые могут быть устранены составными доменами, — это первые, средние и семейные имена в поле имени, а также номер дома и улица, город, штат, почтовый индекс и страна или регион в поле адреса. Когда с составным доменом сопоставляется отдельное поле, DQS выполняет синтаксический анализ данных из одного поля для нескольких доменов, образующих составной.
Иногда один домен не полностью представляет данные поля. Группирование нескольких доменов в составной может позволить эффективно представить данные. Далее представлены преимущества составных доменов.
Анализ различных доменов, образующих составной, может быть более эффективным способом оценки качества данных.
При использовании составного домена вы можете создавать междоменные правила, которые позволяют проверить пригодность связей между данными в нескольких доменах. Например, можно проверить, соответствует ли строка "Лондон" в домене города строке "Великобритания" в домене страны или региона. Заметьте, что междоменные правила учитываются после правил домена.
Данные в составных доменах можно присоединить к источнику эталонных данных. В этом случае составной домен отправляется поставщику эталонных данных. Так часто поступают с адресными данными.
Порядок синтаксического анализа данных, представленных в составном домене, определяется свойствами составного домена. Данные могут быть проанализированы по разделителю, порядку доменов или на основании сведений в доменах, прикрепленных к составному домену (установив флажок Использовать анализ на основе сведений в составном домене). Дополнительные сведения см. в статье Set Composite Domain Properties.
Управление составными доменами ведется иначе, чем отдельными доменами. Управление значениями в составном домене невозможно. Оно ведется в отдельных доменах, образующих составной. Однако в списке доменов в операции управления доменами отображаются связи между различными значениями в составном домене и относящаяся к ним статистика. Например, вы можете просмотреть, сколько существует экземпляров одного адреса, состоящего из пяти заданных строковых значений. На шаге обнаружения в операции обнаружения знаний выполняется профилирование отдельных доменов, входящих в составной, а не самого составного домена. Однако в рамках интерактивной очистки выполняется очистка данных в составном домене, а не отдельных доменах.
Сопоставление может выполняться в отдельных доменах, образующих составной, но не в самом составном домене.
Сопоставление данных
Помимо внесения изменений в базу знаний вручную посредством управления доменами, вы можете добавить в базу знаний знания о сопоставлении. Чтобы подготовить DQS к процессу исключения дубликатов, необходимо создать политику сопоставления, которая будет использоваться DQS для вычисления вероятности совпадения. Эта политика включает одно или несколько правил сопоставления, которые создаются диспетчером данных для определения порядка выполняемого DQS сравнения строк данных. Диспетчер данных определяет, какие поля данных в строке подлежат сравнению и какой вес имеет каждое поле в сравнении. Диспетчер данных также определяет, насколько высока должна быть вероятность для признания совпадения. DQS добавляет правила сопоставления в базу знаний для использования в операции сопоставления в проекте качества данных.
Дополнительные сведения о базе знаний и сопоставлении данных см. в разделе Сопоставление данных.
В этом разделе
В базе знаний и ее доменах вы можете выполнять следующие операции:
Описание операции | Раздел |
---|---|
Создавать и открывать базу знаний, добавлять в нее знания и выполнять обнаружение. | Построение базы знаний |
Выполнять операции импорта и экспорта с доменами и базами знаний. | Импорт и экспорт набора знаний |
Создавать отдельные домены, правила домена, связи терминов и изменять значения домена. | Управление доменом |
Создавать составные домены, междоменные правила и использовать связи значений. | Управление составным доменом |
Использовать базу знаний по умолчанию DQS Data, встроенную в DQS. | Использование базы знаний DQS по умолчанию |