Поделиться через


Профилирование данных с помощью задачи «Профилирование данных» и средства просмотра

Задача «Профилирование данных» обеспечивает профилирование данных внутри процесса извлечения, преобразования и загрузки данных. Использование задачи «Профилирование данных» может дать следующие преимущества.

  • Более эффективный анализ исходных данных

  • Более глубокое понимание исходных данных

  • Предотвращение проблем, связанных с качеством данных, еще до того, как последние попадают в хранилище данных

Важное примечаниеВажно!

Задача «Профилирование данных» работает только с данными, хранящимися в СУБД SQL Server 2000 или более поздних версий. Она не работает с источниками данных сторонних разработчиков и с файловыми источниками данных.

Профилирование данных

В любом бизнесе качество данных имеет важное значение. При оснащении транзакционных систем предприятий аналитическими системами и системами бизнес-аналитики надежность ключевых признаков производительности и прогнозов интеллектуального анализа данных полностью зависит от достоверности данных, на которых они основаны. Хотя важность достоверности данных, используемых в процессе принятия бизнес-решений, возрастает, повышается и сложность обеспечения достоверности этих данных. Потоки данных постоянно поступают на предприятия из различных систем и источников, а также от большого числа пользователей.

Могут возникать сложности с определением метрик качества данных из-за того, что последние связаны с конкретной сферой деятельности или применения. Один из часто применяемых подходов к определению качества данных — это профилирование данных.

Профиль данных — это коллекция статистических сведений о данных, в которую могут входит следующие сведения.

  • Число строк в таблице «Клиенты».

  • Число различающихся значений в столбце «Область».

  • Число отсутствующих значений или значений NULL в столбце «Почтовый индекс».

  • Распределение значений в столбце «Город».

  • Степень функциональной зависимости столбца «Область» от столбца «Почтовый индекс», иначе говоря, область должна быть всегда одной и той же для данного значения почтового индекса.

Статистические сведения, предоставляемые профилем данных, — это информация, необходимая для сведения к минимуму проблем качества, которые могут возникнуть при использовании исходных данных.

Работа системы профилирования данных в службах Integration Services

В службах Integration Services процесс профилирования данных состоит из следующих шагов.

  • Шаг 1. Настройка задачи «Профилирование данных»
    Задача «Профилирование данных» используется для настройки профилей, которые необходимо вычислить. Далее запускается пакет, содержащий задачу «Профилирование данных», чтобы вычислить профили. Эта задача сохраняет выходные данные профиля в формате XML в файле или в переменной пакета.

    Дополнительные сведения см. в разделах Настройка задачи «Профилирование данных»

  • Шаг 2. Обзор профилей, вычисляемых задачей «Профилирование данных»
    Чтобы просмотреть профили данных, вычисляемые задачей «Профилирование данных», нужно направить ее выходные данные в файл и затем использовать средство просмотра профиля данных. Это средство представляет собой отдельную программу, которая отображает выходные данные профиля как в формате сводки, так и в подробном формате с дополнительной возможностью углубленной детализации.

    Дополнительные сведения см. в разделах Просмотр выхода профиля в средстве просмотра профилей данных

Добавление условной логики в поток операций профилирования данных

Задача «Профилирование данных» не имеет встроенных функций, позволяющих связывать эту задачу с нижестоящими задачами на основе выходных данных профиля с помощью условной логики. Однако эту логику можно легко добавить, для чего необходимо включить в задачу «Сценарий» небольшую программу. Например, задаче «Сценарий» можно поручить выполнение запроса Xpath к выходному файлу задачи «Профилирование данных». Этот запрос мог бы выявить, превышает ли процентная доля значений NULL в том или ином столбце определенное пороговое значение. Если эта процентная доля превышает заданное пороговое значение, можно прервать выполнение пакета и до его возобновления разрешить проблему в исходных данных. Дополнительные сведения см. в разделе Использование задачи «Профилирование данных» в потоке операций пакета.

Значок служб Integration Services (маленький)Будьте в курсе новых возможностей cлужб Integration Services

Чтобы загружать новейшую документацию, статьи, образцы и видеоматериалы от корпорации Майкрософт, а также лучшие решения от участников сообщества, посетите страницу служб Integration Services на сайтах MSDN или TechNet:

Чтобы получать автоматические уведомления об этих обновлениях, подпишитесь на RSS-каналы, предлагаемые на этой странице.