Поделиться через


Задачи профилирования и просмотра данных

Задача «Профилирование данных» обеспечивает профилирование данных внутри процесса извлечения, преобразования и загрузки данных. Использование задачи «Профилирование данных» может дать следующие преимущества.

  • Более эффективный анализ исходных данных

  • Более глубокое понимание исходных данных

  • Предотвращение проблем, связанных с качеством данных, еще до того, как последние попадают в хранилище данных

Важное примечаниеВажно!

Задача «Профилирование данных» работает только с данными, хранящимися в SQL Server. Она не работает с источниками данных сторонних разработчиков и с файловыми источниками данных.

Обзор профилирования данных

В любом бизнесе качество данных имеет важное значение. При оснащении транзакционных систем предприятий аналитическими системами и системами бизнес-аналитики надежность ключевых показателей эффективности и прогнозов интеллектуального анализа данных полностью зависит от достоверности данных, на которых они основаны. Хотя важность достоверности данных, используемых в процессе принятия бизнес-решений, возрастает, повышается и сложность обеспечения достоверности этих данных. Потоки данных постоянно поступают на предприятия из различных систем и источников, а также от большого числа пользователей.

Могут возникать сложности с определением метрик качества данных из-за того, что последние связаны с конкретной сферой деятельности или применения. Один из часто применяемых подходов к определению качества данных — это профилирование данных.

Профиль данных — это коллекция статистических сведений о данных, в которую могут входит следующие сведения.

  • Число строк в таблице «Клиенты».

  • Число различающихся значений в столбце «Область».

  • Число отсутствующих значений или значений NULL в столбце «Почтовый индекс».

  • Распределение значений в столбце «Город».

  • Степень функциональной зависимости столбца «Область» от столбца «Почтовый индекс», иначе говоря, область должна быть всегда одной и той же для данного значения почтового индекса.

Статистические сведения, предоставляемые профилем данных, — это информация, необходимая для сведения к минимуму проблем качества, которые могут возникнуть при использовании исходных данных.

Службы Integration Services и профилирование данных

В службах Службы Integration Services процесс профилирования данных состоит из следующих шагов.

  • Шаг 1. Настройка задачи «Профилирование данных»
    Задача «Профилирование данных» используется для настройки профилей, которые необходимо вычислить. Далее запускается пакет, содержащий задачу «Профилирование данных», чтобы вычислить профили. Эта задача сохраняет выходные данные профиля в формате XML в файле или в переменной пакета.

    Дополнительные сведения см. в разделах Установка задачи «Профилирование данных»

  • Шаг 2. Обзор профилей, вычисляемых задачей «Профилирование данных»
    Чтобы просмотреть профили данных, вычисляемые задачей «Профилирование данных», нужно направить ее выходные данные в файл и затем использовать средство просмотра профиля данных. Это средство представляет собой отдельную программу, которая отображает выходные данные профиля как в формате сводки, так и в подробном формате с дополнительной возможностью углубленной детализации.

    Дополнительные сведения см. в разделах: Средство просмотра профиля данных

Добавление условной логики в рабочий процесс профилирования данных

Задача «Профилирование данных» не имеет встроенных функций, позволяющих связывать эту задачу с нижестоящими задачами на основе выходных данных профиля с помощью условной логики. Однако эту логику можно легко добавить, для чего необходимо включить в задачу «Скрипт» небольшую программу. Например, задаче «Скрипт» можно поручить выполнение запроса Xpath к выходному файлу задачи «Профилирование данных». Этот запрос мог бы выявить, превышает ли процентная доля значений NULL в том или ином столбце определенное пороговое значение. Если эта процентная доля превышает заданное пороговое значение, можно прервать выполнение пакета и до его возобновления разрешить проблему в исходных данных. Дополнительные сведения см. в разделе Включение задачи «Профилирование данных» в рабочий процесс пакета.

См. также

Схема данных профилировщика

Значок служб Integration Services (маленький) Будьте в курсе новых возможностей cлужб Integration Services

Чтобы получить новейшую документацию, статьи, образцы и видеоматериалы корпорации Майкрософт, а также лучшие решения участников сообщества, посетите страницу служб Службы Integration Services на сайте MSDN:


Чтобы получать автоматические уведомления об этих обновлениях, подпишитесь на RSS-каналы, предлагаемые на этой странице.