Происхождение данных в Microsoft Purview

В этой статье представлен обзор происхождения данных в Каталог данных Microsoft Purview. В нем также описано, как системы данных могут интегрироваться с каталогом для сбора данных о происхождении данных. Microsoft Purview может собирать данные о происхождении данных в разных частях хранилища данных организации и на разных уровнях подготовки, включая:

  • Необработанные данные, промежуточные с различных платформ
  • Преобразованные и подготовленные данные
  • Данные, используемые платформами визуализации

Варианты использования

Происхождение данных широко понимается как жизненный цикл, охватывающий источник данных и место, в котором они перемещаются с течением времени в пространстве данных. Он используется для различных типов сценариев с обратным взглядом, таких как устранение неполадок, трассировка первопричин в конвейерах данных и отладка. Происхождение данных также используется для анализа качества данных, соответствия требованиям и сценариев "что если", которые часто называют анализом влияния. Происхождение представляется визуально для отображения данных, перемещающихся из источника в место назначения, включая способ преобразования данных. Учитывая сложность большинства корпоративных сред данных, эти представления трудно понять, не выполняя некоторую консолидацию или маскирование периферийных точек данных.

Опыт происхождения данных в Каталог данных Microsoft Purview

Каталог данных Microsoft Purview будет подключаться к другим системам обработки, хранения и аналитики данных для извлечения сведений о происхождении. Сведения объединяются для представления универсального интерфейса происхождения в каталоге, зависящего от сценария.

конечная происхождение данных, на которой отображаются данные, скопированные из хранилища BLOB-объектов вплоть до панели мониторинга Power BI

К вашему хранилищу данных могут относиться системы, выполняя извлечение данных, преобразование (ETL/ELT), системы аналитики и визуализации. Каждая из систем записывает обширные статические и операционные метаданные, описывающие состояние и качество данных в пределах границ систем. Целью происхождения данных в каталоге данных является извлечение метаданных перемещения, преобразования и рабочих данных из каждой системы данных с наименьшей возможной детализацией.

В следующем примере показан типичный вариант использования данных, перемещаемых между несколькими системами, где Каталог данных будет подключаться к каждой из систем для происхождения данных.

  • Фабрика данных копирует данные из локальной или необработанной зоны в целевую зону в облаке.
  • Системы обработки данных, такие как Synapse и Databricks, будут обрабатывать и преобразовывать данные из целевой зоны в курированную зону с помощью записных книжек.
  • Дальнейшая обработка данных в аналитические модели для оптимальной производительности запросов и агрегирования.
  • Системы визуализации данных будут использовать наборы данных и обрабатывать их метамодулями для создания панели мониторинга бизнес-аналитики, экспериментов машинного обучения и т. д.

Степень детализации происхождения

В следующем разделе рассматриваются сведения о степени детализации данных о происхождении, собираемых Microsoft Purview. Такая степень детализации может отличаться в зависимости от систем данных, поддерживаемых в Microsoft Purview.

Происхождение на уровне сущности: исходные > целевые объекты процесса >

  • Происхождение представляется в виде графа, обычно он содержит исходные и целевые сущности в системах хранения данных, которые связаны процессом, вызываемым вычислительной системой.
  • Системы данных подключаются к каталогу данных для создания уникального объекта, ссылающегося на физический объект базовой системы данных, например хранимую процедуру SQL, записные книжки и т. д.
  • Происхождение с высокой точностью с другими метаданными, такими как владение, записывается для отображения происхождения в понятном для человека формате для исходных & целевых сущностей. например: происхождение на уровне таблицы Hive, а не на уровне секций или файлов.

Происхождение данных на уровне столбца или атрибута

Определите атрибуты исходной сущности, которая используется для создания или получения атрибутов в целевой сущности. Имя исходного атрибута можно сохранить или переименовать в целевом объекте. Такие системы, как ADF, могут выполнять одну копию из локальной среды в облако. Пример: Table1/ColumnA -> Table2/ColumnA.

Состояние выполнения процесса

Для поддержки основных причин анализа и сценариев качества данных мы фиксируем состояние выполнения заданий в системах обработки данных. Это требование не имеет ничего общего с заменой возможностей мониторинга других систем обработки данных, ни цель не заключается в их замене.

Сводка

Происхождение данных является критически важной функцией Каталог данных Microsoft Purview для поддержки сценариев качества, доверия и аудита. Цель каталога данных — создать надежную платформу, в которой все системы данных в вашей среде могут естественным образом подключаться к данным и сообщать о происхождении данных. Когда метаданные будут доступны, каталог данных может объединить метаданные, предоставляемые системами данных, для использования вариантов использования управления данными.

Дальнейшие действия