Поделиться через


Параметры запроса профиля шаблона столбцов (задача «Профилирование данных»)

Для установки параметров режима Запрос профиля шаблона столбцов, выделенного в области запросов, используется область Свойства запроса страницы Запросы профиля. Профиль шаблона столбцов описывает набор регулярных выражений, которые покрывают указанный процент значений в строковом столбце. Этот профиль может помочь выявить проблемы в данных, например недопустимые строки, а также предложить регулярные выражения, которые можно использовать в будущем для проверки новых данных. Так, профиль шаблона столбца почтовых индексов США может дать регулярные выражения \d{5}-\d{4}, \d{5} и \d{9}. Если имеются другие регулярные выражения, то вероятно, что данные содержат недопустимые или представленные в неверном формате значения.

ПримечаниеПримечание

В этом разделе описываются параметры, расположенные на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения об этой странице редактора см. в разделе Редактор задачи «Профилирование данных» (страница «Запросы профиля»).

Дополнительные сведения об использовании задачи «Профилирование данных» см. в разделе Настройка задачи «Профилирование данных». Дополнительные сведения об использовании средства просмотра профиля данных для анализа результатов задачи «Профилирование данных» см. в разделе Просмотр выхода профиля в средстве просмотра профилей данных.

Основные сведения об использовании разделителей и символов

Перед вычислением шаблона для варианта Запрос профиля шаблона столбцов задача «Профилирование данных» осуществляет разметку данных. Иначе говоря, строковые значения разделяются на меньшие объекты, известные как маркеры. Задача разделяет строки на маркеры с использованием разделителей и символов, указанных свойствами Разделители и Символы.

  • Разделители   По умолчанию список разделителей содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.

  • Символы   По умолчанию список Символы содержит следующие символы: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Например, если используются символы "()-", то значение "(425) 123-4567" маркируется как ["(", "425", ")", "123", "-", "4567", ")"].

Один знак не может быть одновременно и разделителем, и символом.

В процессе разметки все разделители нормализуются к одинарному пробелу, тогда как символы сохраняются.

Основные сведения об использовании таблицы тегов

При необходимости можно группировать взаимосвязанные маркеры с помощью одного тега; для этого теги и относящиеся к ним термины помещаются в специальную таблицу, которая создается в базе данных SQL Server. Эта таблица тегов должна содержать два строковых столбца, один — с именем «Тег», а другой – с именем «Термин». Эти столбцы могут принадлежать к типу char, nchar, varchar или nvarchar, но не к типу text или ntext. В одной таблице можно сочетать различные теги и соответствующие термины. В запросе профиля шаблона столбцов можно использовать только одну таблицу тегов. Для подключения к таблице тегов можно использовать отдельный диспетчер соединений ADO.NET. Следовательно, таблица тегов может быть размещена не в той базе данных или не на том сервере, где размещаются исходные данные.

К примеру, значения «Восток», «Запад», «Север» и «Юг», которые встречаются в адресах улиц, можно группировать с помощью одного тега – «Направление». Следующая таблица представляет собой пример такой таблицы тегов.

Тег

Ключ

Направление

Восток

Направление

Запад

Направление

Север

Направление

Юг

Для группирования различных слов, выражающих понятие «улица» в адресах улиц, можно использовать и другой тег.

Тег

Термин

Улица

Улица

Улица

Проспект

Улица

Переулок

Улица

Проезд

При использовании такого сочетания тегов результирующий шаблон уличного адреса может выглядеть примерно так:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

ПримечаниеПримечание

Использование таблицы тегов приводит к снижению производительности задачи «Профилирование данных». Не следует использовать более 10 тегов или более 100 терминов в расчете на один тег.

Один и тот же термин может принадлежать нескольким тегам.

Параметры области «Свойства запроса»

Для режима Запрос профиля шаблона столбцов в области Свойства запроса отображаются следующие группы параметров:

  • Данные, куда входят параметры TableOrView и Column

  • Общие

  • Параметры

Параметры данных

  • ConnectionManager
    Выберите существующий диспетчер соединений ADO.NET, использующий поставщик данных .NET для SQL Server (SqlClient) для подключения к базе данных SQL Server, которая содержит таблицу или представление для профилирования.

  • TableOrView
    Выберите существующую таблицу или представление, содержащие столбец для профилирования.

    Дополнительные сведения см. в подразделе «Параметры TableorView» в этом разделе.

  • Column
    Выберите существующий столбец для профилирования. Выберите (*), чтобы выполнить профилирование всех столбцов.

    Дополнительные сведения см. в подразделе «Параметры Column» данного раздела.

Параметры TableOrView

  • Schema
    Указывает схему, которой принадлежит выбранная таблица. Этот параметр доступен только для чтения.

  • Table
    Отображает имя выбранной таблицы. Этот параметр доступен только для чтения.

Параметры столбца

  • IsWildCard
    Указывает, выбран ли символ-шаблон (*). Этот параметр принимает значение True, если выбран шаблон (*), означающий профилирование всех столбцов. Значение False показывает, что для профилирования выбран отдельный столбец. Этот параметр доступен только для чтения.

  • ColumnName
    Отображает имя выбранного столбца. Этот параметр пуст, если выбран шаблон (*), означающий профилирование всех столбцов. Этот параметр доступен только для чтения.

  • StringCompareOptions
    Этот параметр не применяется к профилю шаблона столбцов.

Общие параметры

  • RequestID
    Введите описательное имя для этого запроса профиля. Обычно автоматически сформированное значение менять не нужно.

Параметры

  • MaxNumberOfPatterns
    Укажите максимальное число шаблонов, которое необходимо вычислить с помощью профиля. По умолчанию этот параметр имеет значение 10. Максимальное значение равно 100.

  • PercentageDataCoverageDesired
    Укажите процентную долю данных, которую необходимо охватить в вычисляемых шаблонах. Значение этого параметра по умолчанию равно 95 (процентов).

  • CaseSensitive
    Укажите, учитываются ли в шаблонах регистры. По умолчанию значение этого параметра равно False.

  • Delimiters
    Перечислите символы, которые в процессе разметки текста следует рассматривать как эквиваленты пробелов между словами. По умолчанию список Разделители содержит следующие символы: пробел, символ горизонтальной табуляции (\t), символ новой строки (\n) и символ возврата каретки (\r). Можно указать дополнительные разделители, однако нельзя удалить разделители по умолчанию.

    Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.

  • Symbols
    Перечислите символы, которые следует сохранить как часть шаблонов. Примеры могут включать «.» для дат, «:» для значений времени и «@» для адресов электронной почты. По умолчанию список Символы содержит следующие символы: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.

    Дополнительные сведения см. в подразделе «Основные сведения об использовании разделителей и символов» выше в этом разделе.

  • TagTableConnectionManager
    Выберите существующий диспетчер соединений ADO.NET, который использует поставщик данных .NET для SQL Server (SqlClient) с целью подключения к базе данных SQL Server, содержащей таблицу тегов.

    Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.

  • TagTableName
    Выберите существующую таблицу тегов, которая должна содержать два строковых столбца с именами «Тег» и «Термин».

    Дополнительные сведения см. в подразделе «Основные сведения об использовании таблицы тегов» выше в этом разделе.