Параметры запроса профиля шаблона столбцов (задача «Профилирование данных»)
Для установки параметров режима Запрос профиля шаблона столбца, выделенного в панели запросов, используется панель Свойства запроса страницы Запросы профиля. Профиль шаблона столбцов описывает набор регулярных выражений, которые покрывают указанный процент значений в строковом столбце. Этот профиль может помочь выявить проблемы в данных, например недопустимые строки, а также предложить регулярные выражения, которые можно использовать в будущем для проверки новых данных. Так, профиль шаблона столбца почтовых индексов США может дать регулярные выражения \d{5}-\d{4}, \d{5} и \d{9}. Если имеются другие регулярные выражения, то вероятно, что данные содержат недопустимые или представленные в неверном формате значения.
Примечание |
---|
В этом разделе описываются параметры, расположенные на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения об этой странице редактора см. в разделе Редактор задачи «Профилирование данных» (страница «Запросы профиля»). |
Дополнительные сведения об использовании задачи «Профилирование данных» см. в разделе Установка задачи «Профилирование данных». Дополнительные сведения об использовании средства просмотра профиля данных для анализа результатов задачи «Профилирование данных» см. в разделе Средство просмотра профиля данных.
Основные сведения об использовании разделителей и символов
Перед вычислением шаблонов для режима Запрос профиля шаблона столбцов задача «Профилирование данных» размечает данные. Иначе говоря, строковые значения разбиваются на меньшие объекты, называемые токенами. Задача делит строки на токены, используя разделители и символы, указанные свойствами Разделители и Символы.
Разделители По умолчанию список разделителей содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.
Символы По умолчанию список Символы содержит следующие символы: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Например, если используются символы «()-», то значение «(425) 123-4567» размечается следующим образом: ["(", "425", ")", "123", "-", "4567", ")"].
Один знак не может быть одновременно и разделителем, и символом.
В процессе разметки все разделители нормализуются к одинарному пробелу, тогда как символы сохраняются.
Основные сведения об использовании таблицы тегов
При необходимости можно группировать взаимосвязанные токены с помощью одного тега; для этого теги и относящиеся к ним термины помещаются в специальную таблицу, которая создается в базе данных SQL Server. Эта таблица тегов должна содержать два строковых столбца, один — с именем «Тег», а другой – с именем «Термин». Эти столбцы могут принадлежать к типу char, nchar, varchar или nvarchar, но не к типу text или ntext. В одной таблице можно сочетать различные теги и соответствующие термины. В запросе профиля шаблона столбцов можно использовать только одну таблицу тегов. Для подключения к таблице тегов можно использовать отдельный диспетчер соединений ADO.NET. Следовательно, таблица тегов может быть размещена не в той базе данных или не на том сервере, где размещаются исходные данные.
К примеру, значения «Восток», «Запад», «Север» и «Юг», которые встречаются в адресах улиц, можно группировать с помощью одного тега – «Направление». Следующая таблица представляет собой пример такой таблицы тегов.
Тег |
Термин |
---|---|
Направление |
Восток |
Направление |
Запад |
Направление |
Север |
Направление |
Юг |
Для группирования различных слов, выражающих понятие «улица» в адресах улиц, можно использовать и другой тег.
Тег |
Термин |
---|---|
Улица |
Улица |
Улица |
Проспект |
Улица |
Переулок |
Улица |
Проезд |
При использовании такого сочетания тегов результирующий шаблон уличного адреса может выглядеть примерно так:
\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street
Примечание |
---|
Использование таблицы тегов приводит к снижению производительности задачи «Профилирование данных». Не следует использовать более 10 тегов или более 100 терминов в расчете на один тег. |
Один и тот же термин может принадлежать нескольким тегам.
Параметры области «Свойства запроса»
Для режима Запрос профиля шаблона столбцов на панели Свойства запроса отображаются следующие группы параметров:
Данные, куда входят параметры TableOrView и Column
General
Options
Параметры данных
ConnectionManager
Выберите существующий диспетчер соединений ADO.NET, использующий поставщик данных .NET для SQL Server (SqlClient) для подключения к базе данных SQL Server, которая содержит таблицу или представление для профилирования.TableOrView
Выберите существующую таблицу или представление, содержащие столбец для профилирования.Дополнительные сведения см. в подразделе «Параметры TableorView» данного раздела.
Column
Выберите существующий столбец для профилирования. Выберите (*), чтобы выполнить профилирование всех столбцов.Дополнительные сведения см. в подразделе «Параметры столбца» данного раздела.
Параметры TableOrView
Schema
Указывает схему, которой принадлежит выбранная таблица. Этот параметр доступен только для чтения.Table
Отображает имя выбранной таблицы. Этот параметр доступен только для чтения.
Параметры столбца
IsWildCard
Указывает, выбран ли символ-шаблон (*). Этот параметр принимает значение True, если выбран шаблон (*), означающий профилирование всех столбцов. Значение False показывает, что для профилирования выбран отдельный столбец. Этот параметр доступен только для чтения.ColumnName
Отображает имя выбранного столбца. Этот параметр пуст, если выбран шаблон (*), означающий профилирование всех столбцов. Этот параметр доступен только для чтения.StringCompareOptions
Этот параметр не применяется к профилю шаблона столбцов.
Общие параметры
- RequestID
Введите описательное имя для этого запроса профиля. Обычно автоматически сформированное значение менять не нужно.
Параметры
MaxNumberOfPatterns
Укажите максимальное число шаблонов, которое необходимо вычислить с помощью профиля. Значение этого параметра по умолчанию равно 10. Максимальное значение равно 100.PercentageDataCoverageDesired
Укажите процентную долю данных, которую необходимо охватить в вычисляемых шаблонах. Значение этого параметра по умолчанию равно 95 (процентов).CaseSensitive
Укажите, учитываются ли в шаблонах регистры. По умолчанию значение этого параметра равно False.Delimiters
Перечислите символы, которые в процессе разметки текста следует рассматривать как эквиваленты пробелов между словами. По умолчанию список Разделители содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.
Symbols
Перечислите символы, которые следует сохранить как часть шаблонов. Примеры могут включать «.» для дат, «:» для значений времени и «@» для адресов электронной почты. По умолчанию список Символы содержит следующие символы: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.
TagTableConnectionManager
Выберите существующий диспетчер соединений ADO.NET, который использует поставщик данных .NET для SQL Server (SqlClient) с целью подключения к базе данных SQL Server, содержащей таблицу тегов.Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.
TagTableName
Выберите существующую таблицу тегов, которая должна содержать два строковых столбца с именами «Тег» и «Термин».Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.
См. также
Справочник
Редактор задачи «Профилирование данных» (страница «Общие»)
Форма быстрого профиля одной таблицы (задача «Профилирование данных»)