Бөлісу құралы:


Руководство пользователя Каталог данных Microsoft Purview происхождения происхождения

В этой статье приводятся общие сведения о функциях происхождения данных в Каталог данных Microsoft Purview.

Общие сведения

Одной из функций платформы Microsoft Purview является возможность отображения происхождения между наборами данных, созданными процессами данных. Такие системы, как Фабрика данных, Data Share и Power BI, фиксируют происхождение данных при их перемещении. Пользовательские отчеты о происхождении также поддерживаются с помощью перехватчиков Atlas и REST API.

Коллекция происхождения

Метаданные, собранные в Microsoft Purview из корпоративных систем данных, сшовываются для отображения сквозного происхождения данных. Системы данных, которые собирают данные о происхождении в Microsoft Purview, широко делятся на следующие три типа:

Каждая система поддерживает разный уровень область происхождения. Проверьте приведенные ниже разделы или отдельную статью о происхождении данных вашей системы, чтобы подтвердить область данных о происхождении данных, доступных в настоящее время.

Известные ограничения

  • Представления базы данных, используемые в качестве источника действий процесса (Фабрика данных Azure, Конвейеры Synapse, база данных Azure SQL, Azure Data Share), в настоящее время записываются в Microsoft Purview как объекты таблицы базы данных. Если база данных также сканируется, ресурсы Представления обнаруживаются отдельно в Microsoft Purview. В этом сценарии два ресурса с одинаковым именем записаны в Microsoft Purview: один в виде таблицы с происхождением данных, а другой — в виде представления.
  • Если хранимая процедура содержит инструкции drop или create, они в настоящее время не записываются в происхождение данных.

Системы обработки данных

Средства интеграции данных и ETL могут отправлять происхождение данных в Microsoft Purview во время выполнения. Такие средства, как Фабрика данных, Data Share, Synapse, Azure Databricks и т. д., относятся к этой категории систем обработки данных. Системы обработки данных ссылаться на наборы данных в качестве источника из различных баз данных и решений хранения для создания целевых наборов данных. Список систем обработки данных, которые в настоящее время интегрированы с Microsoft Purview для происхождения данных, приведен в таблице ниже.

Система обработки данных Поддерживаемые область
Воздушный поток Происхождение Airflow
Azure Data Share Общий доступ к snapshot
Фабрика данных Azure действие Copy
Действие потока данных
Выполнение действия пакета служб SSIS
База данных Azure SQL (предварительная версия) Извлечение происхождения для выполнения хранимых процедур
Azure Synapse Analytics действие Copy
Действие потока данных

Системы хранения данных

Базы данных & решения для хранения, такие как Oracle, Teradata и SAP, имеют механизмы запросов для преобразования данных с помощью языка сценариев. Данные о происхождении данных из представлений, хранимых процедур и т. д. собираются в Microsoft Purview и сшовывается с данными происхождения из других систем. Происхождение данных поддерживается для следующих источников данных с помощью проверки данных Microsoft Purview. Дополнительные сведения о поддерживаемых сценариях происхождения данных см. в соответствующей статье.

Категория Источник данных
Azure Azure Databricks
База данных Cassandra
Db2
Google BigQuery
База данных хранилища метаданных Hive
MySQL
Oracle
PostgreSQL
Снежинка
Teradata
Службы и приложения Erwin
Looker
SAP ECC
SAP S/4HANA

Системы аналитики данных и отчетов

Системы аналитики данных и отчетов, такие как Машинное обучение Azure и Power BI, в Microsoft Purview. Эти системы будут использовать наборы данных из систем хранения и обрабатывать их метамодуль для создания панелей мониторинга бизнес-аналитики, экспериментов машинного обучения и т. д.

Система отчетов для аналитики данных & Поддерживаемые область
Power BI Наборы данных, потоки данных, отчеты & панели мониторинга

Начало работы с происхождением данных

Происхождение данных в Microsoft Purview включает наборы данных и процессы. Наборы данных также называются узлами, а процессы также могут называться ребрами:

  • Набор данных (Узел): набор данных (структурированный или неструктурированный), предоставляемый в качестве входных данных для процесса. Например, таблица SQL, BLOB-объект Azure и файлы (такие как .csv и .xml) считаются наборами данных. В разделе происхождения Microsoft Purview наборы данных представлены прямоугольными полями.

  • Процесс (edge): действие или преобразование, выполняемое в наборе данных, называется процессом. Например, ADF действие Copy, Data Share snapshot и т. д. В разделе происхождения microsoft Purview процессы представлены круглой рамкой.

Чтобы получить доступ к данным о происхождении ресурса в Microsoft Purview, выполните следующие действия:

  1. Откройте портал управления Microsoft Purview, выполнив следующие действия.

  2. На домашней странице портала управления Microsoft Purview найдите имя набора данных или имя процесса, например ADF Копирование или Поток данных действие. Затем нажмите клавишу ВВОД.

  3. В результатах поиска выберите ресурс и перейдите на его вкладку Происхождение .

    Снимок экрана: выбор вкладки

Происхождение на уровне активов

Microsoft Purview поддерживает происхождение на уровне ресурсов для наборов данных и процессов. Чтобы просмотреть происхождение на уровне ресурса, перейдите на вкладку Происхождение текущего ресурса в каталоге. Выберите текущий узел ресурса набора данных. По умолчанию список столбцов, принадлежащих данным, отображается в левой области.

Снимок экрана: выбор элемента Просмотр столбцов на странице происхождения.

Происхождение происхождения вручную

Происхождение данных в Microsoft Purview автоматизировано для многих ресурсов в локальных, многооблачных средах и средах SaaS. Несмотря на то, что мы по-прежнему добавляем больше автоматизированных источников, ручное происхождение данных позволяет документировать метаданные происхождения для источников, где автоматизация еще не поддерживается, без использования кода.

Чтобы добавить данные происхождения вручную для любого из ресурсов, выполните следующие действия:

  1. Найдите ресурс в каталоге данных и выберите его для просмотра сведений.

  2. Выберите Изменить, перейдите на вкладку Происхождение и выберите Добавить происхождение вручную на нижней панели.

    Снимок экрана: редактирование ресурса и добавление происхождения вручную.

  3. Чтобы настроить происхождение ресурсов, выполните следующие действия.

    1. Выберите раскрывающийся список ресурсов, чтобы найти ресурс из рекомендуемого списка, или Дополнительные сведения для поиска по полному каталогу. Выберите ресурс, на который вы хотите связать.
    2. Щелкните значок переключения, чтобы настроить направление связи как "Производит" (для подчиненного происхождения) или "Потребляет" (для вышестоящий происхождения).
    3. Если вы хотите удалить происхождение, щелкните значок корзины.

    Снимок экрана: страница происхождения ресурса данных с выделенным раскрывающимся списком ресурсов.

  4. При добавлении происхождения данных между двумя ресурсами данных можно дополнительно настроить происхождение на уровне столбцов. Щелкните значок развертывания в начале строки, выберите вышестоящий и подчиненные столбцы из соответствующих раскрывающихся списков, чтобы настроить сопоставление столбцов. Щелкните значок "плюс", чтобы добавить дополнительные сведения о происхождении столбцов; Щелкните значок корзины, чтобы удалить существующие.

    Снимок экрана: настройка происхождения на уровне столбцов.

  5. Чтобы добавить дополнительные сведения о происхождении на уровне ресурсов, снова нажмите кнопку Добавить происхождение происхождения вручную . По завершении нажмите кнопку Сохранить , чтобы сохранить происхождение и выйти из режима редактирования.

Известные ограничения происхождения данных вручную

  • Текущий интерфейс средства выбора ресурсов позволяет одновременно выбирать только один ресурс.
  • Происхождение данных на уровне столбцов вручную в настоящее время поддерживается для происхождения данных между двумя ресурсами данных, но не поддерживается, когда ресурс обработки участвует между ними.
  • Доступ для курирования данных, необходимый как для исходных, так и для целевых ресурсов.
  • Эти типы ресурсов в настоящее время не разрешают ручное происхождение, так как они поддерживают автоматическое происхождение:
    • Фабрика данных Azure
    • Конвейеры Synapse
    • Наборы данных Power BI
    • Хранимая процедура Teradata
    • Azure SQL хранимая процедура

Происхождение столбцов набора данных

Чтобы просмотреть происхождение набора данных на уровне столбцов, перейдите на вкладку Происхождение текущего ресурса в каталоге и выполните следующие действия:

  1. Когда вы перейдете на вкладку Происхождения данных, в левой области выберите поле проверка рядом с каждым столбцом, который вы хотите отобразить в происхождении данных.

    Снимок экрана: выбор столбцов для отображения на странице происхождения.

  2. Наведите указатель мыши на выбранный столбец на левой панели или в наборе данных холста происхождения, чтобы увидеть сопоставление столбцов. Выделены все экземпляры столбцов.

    Снимок экрана: наведение указателя мыши на имя столбца, чтобы выделить поток столбца в пути происхождения данных.

  3. Если количество столбцов больше, чем может отображаться в левой области, используйте параметр фильтра, чтобы выбрать конкретный столбец по имени. Кроме того, можно использовать мышь для прокрутки списка.

    Снимок экрана: фильтрация столбцов по имени столбцов на странице происхождения.

  4. Если холст происхождения содержит больше узлов и ребер, используйте фильтр для выбора ресурсов данных или узлов процесса по имени. Кроме того, можно использовать мышь для перемещения по окну происхождения.

    Снимок экрана: узлы ресурсов данных по имени на странице происхождения.

  5. Используйте переключатель в левой области, чтобы выделить список наборов данных на холсте происхождения. Если отключить переключатель, отобразится любой ресурс, содержащий хотя бы один из выбранных столбцов. Если включить переключатель, отображаются только наборы данных, содержащие все столбцы.

    Снимок экрана: использование переключателя для фильтрации списка узлов на странице происхождения.

Обработка происхождения столбцов

Вы также можете просматривать процессы данных, такие как действия копирования, в каталоге данных. Например, в этом потоке происхождения выберите действие копирования:

Снимок экрана: поток происхождения данных с выделенным одним из узлов действия копирования.

Действие копирования будет развернуто, после чего можно нажать кнопку Переключиться на ресурс , которая предоставит дополнительные сведения о самом процессе.

Снимок экрана: развернутый узел действия копирования и выбранная кнопка

Процесс обработки данных может принимать один или несколько входных наборов данных для создания одного или нескольких выходных данных. В Microsoft Purview для узлов процесса доступно происхождение происхождения на уровне столбцов.

  1. Переключение между входными и выходными наборами данных из раскрывающегося списка на панели столбцов.

  2. Выберите столбцы из одной или нескольких таблиц, чтобы увидеть происхождение данных, передаваемых из входного набора данных в соответствующий выходной набор данных.

    Снимок экрана: происхождение столбцов узла процесса.

Просмотр ресурсов в происхождении

  1. Выберите Переключиться на ресурс для любого ресурса, чтобы просмотреть соответствующие метаданные из представления происхождения. Это эффективный способ перехода к другому ресурсу в каталоге из представления происхождения.

    Снимок экрана: выбор параметра Переключиться на ресурс в ресурсе данных происхождения.

  2. Холст происхождения может стать сложным для популярных наборов данных. Чтобы избежать беспорядка, в представлении по умолчанию будут отображаться только пять уровней происхождения для актива в фокусе. Остальную часть происхождения можно развернуть, выбрав пузырьки на холсте происхождения. Потребители данных также могут скрывать ресурсы на холсте, которые не представляют интереса. Чтобы еще больше уменьшить беспорядок, отключите переключатель Дополнительные сведения о происхождении в верхней части холста происхождения. Это действие скроет все пузырьки на холсте происхождения.

    Снимок экрана: переключение

  3. Используйте смарт-кнопки на холсте происхождения, чтобы получить оптимальное представление о происхождении:

    1. Полноэкранный режим
    2. Масштабирование в соответствии с
    3. Увеличение и уменьшение масштаба
    4. Автоматическое выравнивание
    5. Предварительный просмотр масштаба
    6. И другие варианты:
      1. Центрирование текущего ресурса
      2. Сброс до представления по умолчанию

    Снимок экрана: выбор смарт-кнопок происхождения.

Создание пользовательских данных происхождения вручную или с помощью REST API

Одной из важных функций платформы Microsoft Purview является возможность отображения происхождения между наборами данных, созданными процессами данных. Такие системы, как Фабрика данных, Data Share и Power BI, фиксируют происхождение данных при их перемещении. В некоторых ситуациях автоматическое создание происхождения данных Purview является неполным или отсутствует для практической визуализации и (или) корпоративной отчетности. В этих сценариях вы можете создавать пользовательские записи происхождения вручную на портале Microsoft Purview или с помощью перехватчиков Apache Atlas и REST API. Еще одним важным преимуществом использования REST API для создания отчетов или создания пользовательских данных происхождения является преодоление или уменьшение ограничений функциональности, предоставляемых вручную.

Чтобы создать пользовательские данные происхождения вручную, можно следовать руководству пользователя: Записи происхождения происхождения вручную в Microsoft Purview.

Чтобы создать пользовательское происхождение в Microsoft Purview с помощью REST API, следуйте этому руководству пользователя: Microsoft Purview — создание пользовательского происхождения с помощью REST API.

Совет

В некоторых случаях REST API могут предоставлять больше возможностей ввода и настройки, чем создавать записи происхождения вручную через портал.

Рекомендации по работе с происхождением

Дальнейшие действия