Настройка задачи «Профилирование данных»
Перед просмотром профиля исходных данных необходимо сначала настроить и выполнить задачу «Профилирование данных». Эта задача создается в пакете служб Integration Services. Задача «Профилирование данных» настраивается с помощью редактора задачи «Профилирование данных». Этот редактор позволяет выбрать расположение, в которое будут выводиться профили, в том числе профили, требуемые для вычисления. После настройки задачи запускается пакет, вычисляющий профили данных.
Важно! |
---|
Задача «Профилирование данных» работает только с данными, хранящимися в SQL Server 2000 или более поздних версий. Она не работает с источниками данных сторонних разработчиков и с файловыми источниками данных. Кроме того, для запуска пакета, содержащего задачу «Профилирование данных», необходимо использовать учетную запись с разрешениями на чтение и запись базы данных tempdb, включая разрешение CREATE TABLE. |
Выбор метода использования задачи в пакете
Задача «Профилирование данных» только настраивает профили и создает выходной файл, который содержит вычисляемые профили. Для просмотра этого файла используется средство просмотра профиля данных (изолированная программа просмотра). Поскольку выходные данные следует просматривать раздельно, задачу «Профилирование данных» можно использовать в пакете, не содержащем других задач.
Однако не обязательно использовать задачу «Профилирование данных» в качестве единственной задачи в пакете. Если необходимо выполнить профилирование данных в потоке операций или данных более сложного пакета, можно использовать один из следующих режимов.
Чтобы реализовать условную логику, основанную на выходном файле задачи, поместите в потоке управления пакета задачу «Сценарий» после задачи «Профилирование данных». После этого можно использовать данную задачу «Сценарий» для выполнения запросов к выходному файлу.
Для профилирования данных в потоке данных после их загрузки и преобразования необходимо временно сохранить измененные данные в таблице SQL Server. После этого можно выполнить профилирование сохраненных данных.
Дополнительные сведения см. в разделе Использование задачи «Профилирование данных» в потоке операций пакета;
Настройка выходных данных задачи
После добавления в пакет задачи «Профилирование данных» необходимо настроить файл выходных данных для профилей, которые будет вычислять эта задача. Для настройки выходного формата профилей используется страница Общие редактора задачи «Профилирование данных». Помимо указания целевого объекта для выходных данных, на странице Общие предусмотрена возможность выбора быстрого профиля данных. При выборе функции Быстрый профиль задача «Профилирование данных» профилирует таблицу или представление с использованием некоторых или всех профилей и их параметров по умолчанию.
Дополнительные сведения см. в разделах Редактор задачи «Профилирование данных» (страница «Общие») и Форма быстрого профиля одной таблицы (задача «Профилирование данных»).
Важно! |
---|
В выходном файле могут содержаться конфиденциальные данные о базе данных и о содержащихся в ней данных. Рекомендации по повышению защищенности этого файла см. в разделе Управление доступом к файлам, используемым пакетами. |
Выбор и настройка профилей для вычисления
После настройки файла выходных данных необходимо выбрать профили данных для вычисления. Задача «Профилирование данных» может вычислять восемь различных профилей данных. Пять из них анализируют отдельные столбцы, а остальные три анализируют несколько столбцов или связи между столбцами и таблицами. В рамках одной задачи «Профилирование данных» можно вычислить несколько профилей для нескольких столбцов или сочетаний столбцов из нескольких таблиц или представлений.
В приведенной ниже таблице описаны отчеты, вычисляемые каждым из этих профилей, а также типы данных, для которых профиль является допустимым.
Для вычисления |
Это позволяет определить |
Используемый профиль |
---|---|---|
Все различающиеся размеры строковых значений в выбранном столбце, а также процентную долю строк в таблице, которые представляют каждый размер. |
Недопустимые строковые значения — например, профилируется столбец, который должен содержать двухсимвольные коды штатов США, но обнаружены значения длиной более двух символов. |
Распределение длины столбцов — допустимо для столбцов с данными одного из следующих типов:
|
Набор регулярных выражений, охватывающий указанную процентную долю значений строкового столбца. Кроме того, для поиска регулярных выражений, которые могут быть использованы в будущем для проверки новых значений. |
Недопустимые строковые значения или значения, имеющие неверный формат (например шаблон профиля столбца почтового индекса должен выдавать регулярные выражения: \d{5}-\d{4}, \d{5} и \d{9}). Если выходные данные содержат другие регулярные выражения, то данные, содержащие значения, либо недопустимы, либо имеют неверный формат. |
Профиль шаблона столбцов — допустимо для столбцов с данными одного из следующих типов:
|
Процент значений NULL в выбранном столбце. |
Неожиданно высокое соотношение значений NULL в столбце — например, профилируется столбец, который должен содержать почтовые индексы штатов США, но обнаружено неприемлемо много отсутствующих почтовых индексов. |
Соотношение значений NULL в столбце — допустимо для столбцов с данными следующих типов:
|
Статистика. Например: минимальное, максимальное, среднее и стандартное отклонение для числовых столбцов, а также минимальное и максимальное значение для столбцов datetime. |
Недопустимые числовые значения и даты — например, профилируется столбец исторических дат, и при этом оказывается, что самая поздняя дата относится к будущему. |
Профиль статистики столбцов — допустимо для столбцов с данными одного из следующих типов:
|
Все различающиеся значения в выбранном столбце, а также процентную долю строк в таблице, которые представляет каждое значение. Кроме того, все значения, представляющие больший процент, чем указано в таблице. |
Неверное число различающихся значений в столбце — например, профилируется столбец, который содержит штаты США, но найдено более 50 различных значений. |
Распределение значений столбцов — допустимо для столбцов с данными одного из следующих типов:
|
Является ли столбец или набор столбцов ключом или приблизительным ключом для выбранной таблицы. |
Повторяющиеся значения в потенциальном ключевом столбце — например, при профилировании столбцов Name и Address в таблице Customers обнаруживаются повторяющиеся значения там, где сочетания имени и адреса должны быть уникальными. |
Потенциальный ключ — профиль с несколькими столбцами, в котором показано, подходит ли столбец или набор столбцов для роли ключевого столбца в выбранной таблице. Допустимо для столбцов с данными одного из следующих типов:
|
Экстент, в котором значения одного столбца (зависимого) зависят от другого столбца или набора столбцов (определяющего столбца). |
Значения, которые являются недопустимыми в зависимых столбцах — например, при профилировании зависимости между столбцом с почтовыми индексами США и столбцом, содержащим штаты. Каждому штату соответствует только один почтовый индекс. Однако профиль обнаружил нарушение зависимости. |
Функциональная зависимость — допустимо для столбцов с данными одного из следующих типов:
|
Способность столбца или набора столбцов служить в качестве внешнего ключа для выбранных таблиц. То есть этот профиль сообщает о перекрытии значений между двумя столбцами или наборами столбцов. |
Недопустимые значения — например, профилируется столбец ProductID таблицы Sales. Профиль определяет, что в столбце содержатся значения, отсутствующие в столбце ProductID таблицы Products. |
Включение значений — допустимо для столбцов с данными одного из следующих типов:
|
Профили для вычисления выбираются на странице Запросы профиля в редакторе задачи «Профилирование данных». Дополнительные сведения см. в разделе Редактор задачи «Профилирование данных» (страница «Запросы профиля»).
Кроме того, на странице Запрос профиля можно задать источник данных и настроить профили данных. При настройке задачи необходимо учитывать следующие сведения:
Чтобы выполнить простую настройку и упростить обнаружение характеристик незнакомых данных, можно использовать символ-шаблон (*) вместо имени отдельного столбца. При использовании этого шаблона задача будет профилировать все столбцы, содержащие данные соответствующего типа, что может снизить скорость обработки.
Если выбранная таблица или представление пусты, задача «Профилирование данных» не вычисляет никакие профили.
Когда все значения в выбранном столбце являются значениями NULL, то задача «Профилирование данных» вычисляет только профиль соотношения значений NULL в столбцах. Она не вычисляет профиль распределения длины столбцов, профиль шаблона столбцов, профиль статистики столбцов и профиль распределения значений столбцов для пустого столбца.
Для каждого из доступных профилей данных предусмотрены свои параметры конфигурации. Дополнительные сведения об этих параметрах см. в следующих разделах:
Параметры запроса профиля потенциальных ключей (задача «Профилирование данных»)
Параметры запроса профиля распределения длин столбцов (задача «Профилирование данных»)
Параметры запроса профиля значений NULL в столбцах (задача «Профилирование данных»)
Параметры запроса профиля шаблона столбцов (задача «Профилирование данных»)
Параметры запроса профиля статистики столбцов (задача «Профилирование данных»)
Параметры запроса профиля распределения значений в столбцах (задача «Профилирование данных»)
Параметры запроса для профиля функциональной зависимости (задача «Профилирование данных»)
Параметры запроса профиля включения значений (задача «Профилирование данных»)
Запуск пакета, содержащего задачу «Профилирование данных»
Задачу «Профилирование данных» можно запускать после соответствующей настройки. После запуска задача вычисляет профили данных и выводит полученные сведения в формате XML в файл или переменную пакета. Структура этого XML соответствует схеме DataProfile.xsd. Схему можно открыть в Microsoft Visual Studio или в другом редакторе схем, XML-редакторе или в редакторе текстов, например в «Блокноте». Использование этой схемы сведений о качестве данных может быть полезно в следующих случаях.
Обмен сведениями о качестве данных внутри организации и между различными организациями.
Построение собственных средств, работающих со сведениями о качестве данных.
Целевое пространство имен определяется в схеме как https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Следующий шаг
Просмотр выхода профиля в средстве просмотра профилей данных.
|
Журнал изменений
Обновленное содержимое. |
---|
|