Установка задачи «Профилирование данных»

Статья
05/08/2013

Перед просмотром профиля исходных данных необходимо сначала настроить и выполнить задачу «Профилирование данных». Эта задача создается в пакете служб Службы Integration Services. Задача «Профилирование данных» настраивается с помощью редактора задачи «Профилирование данных». Этот редактор позволяет выбрать расположение, в которое будут выводиться профили, в том числе профили, требуемые для вычисления. После настройки задачи запускается пакет, вычисляющий профили данных.

Требования и ограничения

Задача «Профилирование данных» работает только с данными, хранящимися в SQL Server. Она не работает с источниками данных сторонних разработчиков и с файловыми источниками данных.

Кроме того, для запуска пакета, содержащего задачу «Профилирование данных», необходимо использовать учетную запись с разрешениями на чтение и запись в базе данных tempdb, включая разрешение CREATE TABLE.

Задача «Профилирование данных» в пакете

Задача «Профилирование данных» только настраивает профили и создает выходной файл, который содержит вычисляемые профили. Для просмотра этого файла используется средство просмотра профиля данных (изолированная программа просмотра). Поскольку выходные данные следует просматривать раздельно, задачу «Профилирование данных» можно использовать в пакете, не содержащем других задач.

Однако не обязательно использовать задачу «Профилирование данных» в качестве единственной задачи в пакете. Если необходимо выполнить профилирование данных в рабочем процессе или данных более сложного пакета, можно использовать один из следующих режимов.

Чтобы реализовать условную логику, основанную на выходном файле задачи, поместите в потоке управления пакета задачу «Скрипт» после задачи «Профилирование данных». После этого можно использовать данную задачу «Скрипт» для выполнения запросов к выходному файлу.
Для профилирования данных в потоке данных после их загрузки и преобразования необходимо временно сохранить измененные данные в таблице SQL Server. После этого можно выполнить профилирование сохраненных данных.

Дополнительные сведения см. в разделе Включение задачи «Профилирование данных» в рабочий процесс пакета;

Настройка выходных данных задачи

После добавления в пакет задачи «Профилирование данных» необходимо настроить файл выходных данных для профилей, которые будет вычислять эта задача. Для настройки выходного формата профилей используется страница Общие редактора задачи «Профилирование данных». Помимо указания целевого объекта для выходных данных, на странице Общие предусмотрена возможность выбора быстрого профиля данных. При выборе функции Быстрый профиль задача «Профилирование данных» профилирует таблицу или представление с использованием некоторых или всех профилей и их параметров по умолчанию.

Дополнительные сведения см. в разделах Редактор задачи «Профилирование данных» (страница «Общие») и Форма быстрого профиля одной таблицы (задача «Профилирование данных»).

Важно!
В выходном файле могут содержаться конфиденциальные данные о базе данных и о содержащихся в ней данных. Рекомендации по повышению защищенности этого файла см. в разделе Доступ к файлам, используемым пакетами.

Выбор и настройка профилей для вычисления

После настройки файла выходных данных необходимо выбрать профили данных для вычисления. Задача «Профилирование данных» может вычислять восемь различных профилей данных. Пять из них анализируют отдельные столбцы, а остальные три анализируют несколько столбцов или связи между столбцами и таблицами. В рамках одной задачи «Профилирование данных» можно вычислить несколько профилей для нескольких столбцов или сочетаний столбцов из нескольких таблиц или представлений.

В приведенной ниже таблице описаны отчеты, вычисляемые каждым из этих профилей, а также типы данных, для которых профиль является допустимым.

Все различающиеся размеры строковых значений в выбранном столбце, а также процентную долю строк в таблице, которые представляют каждый размер.

Недопустимые строковые значения — например, профилируется столбец, который должен содержать двухсимвольные коды штатов США, но обнаружены значения длиной более двух символов.

Распределение длины столбцов — допустимо для столбцов с данными одного из следующих типов:

Символьные типы данных: char, nchar, varchar и nvarchar

Набор регулярных выражений, охватывающий указанную процентную долю значений строкового столбца.

Кроме того, для поиска регулярных выражений, которые могут быть использованы в будущем для проверки новых значений.

Недопустимые строковые значения или значения, имеющие неверный формат (например шаблон профиля столбца почтового индекса должен выдавать регулярные выражения: \d{5}-\d{4}, \d{5} и \d{9}). Если выходные данные содержат другие регулярные выражения, то данные, содержащие значения, либо недопустимы, либо имеют неверный формат.

Профиль шаблона столбцов — допустимо для столбцов с данными одного из следующих типов:

Символьные типы данных: char, nchar, varchar и nvarchar

Процент значений NULL в выбранном столбце.

Неожиданно высокое соотношение значений NULL в столбце — например, профилируется столбец, который должен содержать почтовые индексы штатов США, но обнаружено неприемлемо много отсутствующих почтовых индексов.

Соотношение значений NULL в столбце — допустимо для столбцов с данными следующих типов:

Любой тип данных. Сюда относятся типы image, text, xml, определяемые пользователем типы и типы данных variant

Статистика. Например: минимальное, максимальное, среднее и стандартное отклонение для числовых столбцов, а также минимальное и максимальное значение для столбцов datetime.

Недопустимые числовые значения и даты — например, профилируется столбец исторических дат, и при этом оказывается, что самая поздняя дата относится к будущему.

Профиль статистики столбцов — допустимо для столбцов с данными одного из следующих типов:

Числовые типы данных: целочисленные типы (кроме bit), money, smallmoney, decimal, float, real и numeric

Типы данных даты и времени: datetime, smalldatetime, timestamp, date, time, datetime2 и datetimeoffset

Примечание
Для столбца с типом данных date и time профиль вычисляет только минимальные и максимальные значения.

Все различающиеся значения в выбранном столбце, а также процентную долю строк в таблице, которые представляет каждое значение. Кроме того, все значения, представляющие больший процент, чем указано в таблице.

Неверное число различающихся значений в столбце — например, профилируется столбец, который содержит штаты США, но найдено более 50 различных значений.

Распределение значений столбцов — допустимо для столбцов с данными одного из следующих типов:

Числовые типы данных: целочисленные типы (кроме bit), money, smallmoney, decimal, float, real и numeric
Символьные типы данных: char, nchar, varchar и nvarchar
Типы данных даты и времени: datetime, smalldatetime, timestamp, date, time, datetime2 и datetimeoffset

Является ли столбец или набор столбцов ключом или приблизительным ключом для выбранной таблицы.

Повторяющиеся значения в потенциальном ключевом столбце — например, при профилировании столбцов Name и Address в таблице Customers обнаруживаются повторяющиеся значения там, где сочетания имени и адреса должны быть уникальными.

Потенциальный ключ — профиль с несколькими столбцами, в котором показано, подходит ли столбец или набор столбцов для роли ключевого столбца в выбранной таблице.

Допустимо для столбцов с данными одного из следующих типов:

Целочисленные типы данных: bit, tinyint, smallint, int и bigint
Символьные типы данных: char, nchar, varchar и nvarchar
Типы данных даты и времени: datetime, smalldatetime, timestamp, date, time, datetime2 и datetimeoffset

Экстент, в котором значения одного столбца (зависимого) зависят от другого столбца или набора столбцов (определяющего столбца).

Значения, которые являются недопустимыми в зависимых столбцах — например, при профилировании зависимости между столбцом с почтовыми индексами США и столбцом, содержащим штаты. Каждому штату соответствует только один почтовый индекс. Однако профиль обнаружил нарушение зависимости.

Функциональная зависимость — допустимо для столбцов с данными одного из следующих типов:

Целочисленные типы данных: bit, tinyint, smallint, int и bigint
Символьные типы данных: char, nchar, varchar и nvarchar
Типы данных даты и времени: datetime, smalldatetime, timestamp, date, time, datetime2 и datetimeoffset

Способность столбца или набора столбцов служить в качестве внешнего ключа для выбранных таблиц.

То есть этот профиль сообщает о перекрытии значений между двумя столбцами или наборами столбцов.

Недопустимые значения — например, профилируется столбец ProductID таблицы Sales. Профиль определяет, что в столбце содержатся значения, отсутствующие в столбце ProductID таблицы Products.

Включение значений — допустимо для столбцов с данными одного из следующих типов:

Целочисленные типы данных: bit, tinyint, smallint, int и bigint
Символьный тип данных: char, nchar, varchar и nvarchar
Типы данных даты и времени: datetime, smalldatetime, timestamp, date, time, datetime2 и datetimeoffset

Профили для вычисления выбираются на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения см. в разделе Редактор задачи «Профилирование данных» (страница «Запросы профиля»).

Кроме того, на странице Запрос профиля можно задать источник данных и настроить профили данных. При настройке задачи необходимо учитывать следующие сведения:

Чтобы выполнить простую настройку и упростить обнаружение характеристик незнакомых данных, можно использовать символ-шаблон (*) вместо имени отдельного столбца. При использовании этого шаблона задача будет профилировать все столбцы, содержащие данные соответствующего типа, что может снизить скорость обработки.
Если выбранная таблица или представление пусты, задача «Профилирование данных» не вычисляет никакие профили.
Когда все значения в выбранном столбце являются значениями NULL, то задача «Профилирование данных» вычисляет только профиль соотношения значений NULL в столбцах. Она не вычисляет профиль распределения длины столбцов, профиль шаблона столбцов, профиль статистики столбцов и профиль распределения значений столбцов для пустого столбца.

Для каждого из доступных профилей данных предусмотрены свои параметры конфигурации. Дополнительные сведения об этих параметрах см. в следующих разделах:

Выполнение пакета, содержащего задачу «Профилирование данных»

Задачу «Профилирование данных» можно запускать после соответствующей настройки. После запуска задача вычисляет профили данных и выводит полученные сведения в формате XML в файл или переменную пакета. Структура этого XML соответствует схеме DataProfile.xsd. Схему можно открыть в Microsoft Visual Studio или в другом редакторе схем, XML-редакторе или в редакторе текстов, например в «Блокноте». Использование этой схемы сведений о качестве данных может быть полезно в следующих случаях.

Обмен сведениями о качестве данных внутри организации и между различными организациями.
Построение собственных средств, работающих со сведениями о качестве данных.

Целевое пространство имен определяется в схеме как https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Следующий шаг

Средство просмотра профиля данных.

См. также

Будьте в курсе новых возможностей служб Integration Services

Чтобы получить новейшую документацию, статьи, образцы и видеоматериалы корпорации Майкрософт, а также лучшие решения участников сообщества, посетите страницу служб Службы Integration Services на сайте MSDN:

Посетить страницу «Службы Integration Services» на сайте MSDN

Чтобы получать автоматические уведомления об этих обновлениях, подпишитесь на RSS-каналы, предлагаемые на этой странице.

Поделиться через