Поделиться через


Параметры запроса профиля шаблона столбцов (задача «Профилирование данных»)

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Для установки параметров режима Запрос профиля шаблона столбца , выделенного в панели запросов, используется панель Свойства запроса страницы Запросы профиля . Профиль шаблона столбцов описывает набор регулярных выражений, которые покрывают указанный процент значений в строковом столбце. Этот профиль может помочь выявить проблемы в данных, например недопустимые строки, а также предложить регулярные выражения, которые можно использовать в будущем для проверки новых данных. Так, профиль шаблона столбца почтовых индексов США может дать регулярные выражения \d{5}-\d{4}, \d{5} и \d{9}. Если имеются другие регулярные выражения, то вероятно, что данные содержат недопустимые или представленные в неверном формате значения.

Примечание.

В этом разделе описываются параметры, расположенные на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения об этой странице редактора см. в разделе Редактор задачи "Профилирование данных" (страница запросов профиля).

Дополнительные сведения об использовании задачи "Профилирование данных" см. в разделе Установка задачи "Профилирование данных". Дополнительные сведения об использовании средства просмотра профиля данных для анализа результатов задачи "Профилирование данных" см. в разделе Средство просмотра профиля данных.

Основные сведения об использовании разделителей и символов

Перед вычислением шаблонов для режима Запрос профиля шаблона столбцовзадача «Профилирование данных» размечает данные. Иначе говоря, строковые значения разбиваются на меньшие объекты, называемые токенами. Задача делит строки на токены, используя разделители и символы, указанные свойствами Разделители и Символы .

  • Разделители . По умолчанию список разделителей содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.

  • Символы. По умолчанию список Символы содержит символы ,.;:-"'~=&/@!?()<>[]{}|#*^%, а также деление. Например, если используются символы «()-», то значение «(425) 123-4567» размечается следующим образом: ["(", "425", ")", "123", "-", "4567", ")"].

Один знак не может быть одновременно и разделителем, и символом.

В процессе разметки все разделители нормализуются к одинарному пробелу, тогда как символы сохраняются.

Основные сведения об использовании таблицы тегов

При необходимости можно группировать связанные токены с помощью одного тега; для этого теги и относящиеся к ним термины помещаются в специальную таблицу, которая создается в базе данных SQL Server. Эта таблица тегов должна содержать два строковых столбца, один — с именем «Тег», а другой – с именем «Термин». Эти столбцы могут принадлежать к типу char, nchar, varcharили nvarchar, но не к типу text или ntext. В одной таблице можно сочетать различные теги и соответствующие термины. В запросе профиля шаблона столбцов можно использовать только одну таблицу тегов. Для подключения к таблице тегов можно использовать отдельный диспетчер подключений ADO.NET. Следовательно, таблица тегов может быть размещена не в той базе данных или не на том сервере, где размещаются исходные данные.

К примеру, значения «Восток», «Запад», «Север» и «Юг», которые встречаются в адресах улиц, можно группировать с помощью одного тега – «Направление». Следующая таблица представляет собой пример такой таблицы тегов.

Тег Термин
Направление Восток
Направление Запад
Направление Север
Направление South

Для группирования различных слов, выражающих понятие «улица» в адресах улиц, можно использовать и другой тег.

Тег Термин
Улица Улица
Улица Проспект
Улица Местоположение
Улица Проезд

При использовании такого сочетания тегов результирующий шаблон уличного адреса может выглядеть примерно так:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

Примечание.

Использование таблицы тегов приводит к снижению производительности задачи «Профилирование данных». Не следует использовать более 10 тегов или более 100 терминов в расчете на один тег.

Один и тот же термин может принадлежать нескольким тегам.

Параметры области «Свойства запроса»

Для режима Запрос профиля шаблона столбцовна панели Свойства запроса отображаются следующие группы параметров:

  • Данные, куда входят параметры TableOrView и Column

  • Общие сведения

  • Параметры

Параметры данных

ConnectionManager
Выберите существующий диспетчер соединений ADO.NET, который использует поставщика данных .NET для SQL Server (SqlClient) для подключения к базе данных SQL Server, содержащей таблицу или представление для профилирования.

TableOrView
Выберите существующую таблицу или представление, содержащие столбец для профилирования.

Дополнительные сведения см. в подразделе «Параметры TableorView» данного раздела.

Столбец
Выберите существующий столбец для профилирования. Выберите (*), чтобы выполнить профилирование всех столбцов.

Дополнительные сведения см. в подразделе «Параметры столбца» данного раздела.

Параметры TableOrView

Схема
Указывает схему, которой принадлежит выбранная таблица. Этот параметр доступен только для чтения.

Таблицу
Отображает имя выбранной таблицы. Этот параметр доступен только для чтения.

Параметры столбцов

IsWildCard
Указывает, выбран ли подстановочный знак (*). Этот параметр принимает значение True, если выбран подстановочный знак (*) для профилирования всех столбцов. Значение False показывает, что для профилирования выбран отдельный столбец. Этот параметр доступен только для чтения.

ColumnName
Отображает имя выбранного столбца. Этот параметр пуст, если выбран подстановочный знак (*) для профилирования всех столбцов. Этот параметр доступен только для чтения.

StringCompareOptions
Этот параметр не применяется к профилю шаблона столбцов.

Общие параметры

RequestID
Введите описательное имя для этого запроса профиля. Обычно не нужно менять автоматически сформированное значение.

Параметры

MaxNumberOfPatterns
Укажите максимальное число шаблонов, которое необходимо вычислить с помощью профиля. Значение этого параметра по умолчанию равно 10. Максимальное значение равно 100.

PercentageDataCoverageDesired
Укажите процентную долю данных, которую необходимо охватить в вычисляемых шаблонах. Значение этого параметра по умолчанию равно 95 (процентов).

CaseSensitive
Укажите, учитываются ли в шаблонах регистры. По умолчанию значение этого параметра равно False.

Разделители
Перечислите символы, которые в процессе разметки текста следует рассматривать как эквиваленты пробелов между словами. По умолчанию список Разделители содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.

Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.

Символы
Перечислите символы, которые следует сохранить как часть шаблонов. Примеры могут включать «.» для дат, «:» для значений времени и «@» для адресов электронной почты. По умолчанию список Символы содержит следующие символы: ,.;:-"'~=&/@!?()<>[]{}|#*^%.

Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.

TagTableConnectionManager
Выберите существующий диспетчер подключений ADO.NET, использующий поставщик данных .NET для SQL Server (SqlClient) для подключения к базе данных SQL Server, которая содержит таблицу тегов.

Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.

TagTableName
Выберите существующую таблицу тегов, которая должна содержать два строковых столбца с именами «Тег» и «Термин».

Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.

См. также

Редактор задачи «Профилирование данных» (страница «Общие»)
Форма быстрого профиля одной таблицы (задача «Профилирование данных»)