Происхождение данных в Microsoft Purview
В этой статье представлен обзор происхождения данных в Каталог данных Microsoft Purview. В нем также описано, как системы данных могут интегрироваться с каталогом для сбора данных о происхождении данных. Microsoft Purview может собирать данные о происхождении данных в разных частях хранилища данных организации и на разных уровнях подготовки, включая:
- Необработанные данные, промежуточные с различных платформ
- Преобразованные и подготовленные данные
- Данные, используемые платформами визуализации
Происхождение данных широко понимается как жизненный цикл, охватывающий источник данных и место, в котором они перемещаются с течением времени в пространстве данных. Он используется для различных типов сценариев с обратным взглядом, таких как устранение неполадок, трассировка первопричин в конвейерах данных и отладка. Происхождение данных также используется для анализа качества данных, соответствия требованиям и сценариев "что если", которые часто называют анализом влияния. Происхождение представляется визуально для отображения данных, перемещающихся из источника в место назначения, включая способ преобразования данных. Учитывая сложность большинства корпоративных сред данных, эти представления трудно понять, не выполняя некоторую консолидацию или маскирование периферийных точек данных.
Каталог данных Microsoft Purview будет подключаться к другим системам обработки, хранения и аналитики данных для извлечения сведений о происхождении. Сведения объединяются для представления универсального интерфейса происхождения в каталоге, зависящего от сценария.
К вашему хранилищу данных могут относиться системы, выполняя извлечение данных, преобразование (ETL/ELT), системы аналитики и визуализации. Каждая из систем записывает обширные статические и операционные метаданные, описывающие состояние и качество данных в пределах границ систем. Целью происхождения данных в каталоге данных является извлечение метаданных перемещения, преобразования и рабочих данных из каждой системы данных с наименьшей возможной детализацией.
В следующем примере показан типичный вариант использования данных, перемещаемых между несколькими системами, где Каталог данных будет подключаться к каждой из систем для происхождения данных.
- Фабрика данных копирует данные из локальной или необработанной зоны в целевую зону в облаке.
- Системы обработки данных, такие как Synapse и Databricks, будут обрабатывать и преобразовывать данные из целевой зоны в курированную зону с помощью записных книжек.
- Дальнейшая обработка данных в аналитические модели для оптимальной производительности запросов и агрегирования.
- Системы визуализации данных будут использовать наборы данных и обрабатывать их метамодулями для создания панели мониторинга бизнес-аналитики, экспериментов машинного обучения и т. д.
В следующем разделе рассматриваются сведения о степени детализации данных о происхождении, собираемых Microsoft Purview. Такая степень детализации может отличаться в зависимости от систем данных, поддерживаемых в Microsoft Purview.
- Происхождение представляется в виде графа, обычно он содержит исходные и целевые сущности в системах хранения данных, которые связаны процессом, вызываемым вычислительной системой.
- Системы данных подключаются к каталогу данных для создания уникального объекта, ссылающегося на физический объект базовой системы данных, например хранимую процедуру SQL, записные книжки и т. д.
- Происхождение с высокой точностью с другими метаданными, такими как владение, записывается для отображения происхождения в понятном для человека формате для исходных & целевых сущностей. например: происхождение на уровне таблицы Hive, а не на уровне секций или файлов.
Определите атрибуты исходной сущности, которая используется для создания или получения атрибутов в целевой сущности. Имя исходного атрибута можно сохранить или переименовать в целевом объекте. Такие системы, как ADF, могут выполнять одну копию из локальной среды в облако. Пример: Table1/ColumnA -> Table2/ColumnA
.
Для поддержки основных причин анализа и сценариев качества данных мы фиксируем состояние выполнения заданий в системах обработки данных. Это требование не имеет ничего общего с заменой возможностей мониторинга других систем обработки данных, ни цель не заключается в их замене.
Происхождение данных является критически важной функцией Каталог данных Microsoft Purview для поддержки сценариев качества, доверия и аудита. Цель каталога данных — создать надежную платформу, в которой все системы данных в вашей среде могут естественным образом подключаться к данным и сообщать о происхождении данных. Когда метаданные будут доступны, каталог данных может объединить метаданные, предоставляемые системами данных, для использования вариантов использования управления данными.