Руководство пользователя Каталог данных Microsoft Purview происхождения происхождения
В этой статье приводятся общие сведения о функциях происхождения данных в Каталог данных Microsoft Purview.
Общие сведения
Одной из функций платформы Microsoft Purview является возможность отображения происхождения между наборами данных, созданными процессами данных. Такие системы, как Фабрика данных, Data Share и Power BI, фиксируют происхождение данных при их перемещении. Пользовательские отчеты о происхождении также поддерживаются с помощью перехватчиков Atlas и REST API.
Коллекция происхождения
Метаданные, собранные в Microsoft Purview из корпоративных систем данных, сшовываются для отображения сквозного происхождения данных. Системы данных, которые собирают данные о происхождении в Microsoft Purview, широко делятся на следующие три типа:
Каждая система поддерживает разный уровень область происхождения. Проверьте приведенные ниже разделы или отдельную статью о происхождении данных вашей системы, чтобы подтвердить область данных о происхождении данных, доступных в настоящее время.
Известные ограничения
- Представления базы данных, используемые в качестве источника действий процесса (Фабрика данных Azure, Конвейеры Synapse, база данных Azure SQL, Azure Data Share), в настоящее время записываются в Microsoft Purview как объекты таблицы базы данных. Если база данных также сканируется, ресурсы Представления обнаруживаются отдельно в Microsoft Purview. В этом сценарии два ресурса с одинаковым именем записаны в Microsoft Purview: один в виде таблицы с происхождением данных, а другой — в виде представления.
- Если хранимая процедура содержит инструкции drop или create, они в настоящее время не записываются в происхождение данных.
Системы обработки данных
Средства интеграции данных и ETL могут отправлять происхождение данных в Microsoft Purview во время выполнения. Такие средства, как Фабрика данных, Data Share, Synapse, Azure Databricks и т. д., относятся к этой категории систем обработки данных. Системы обработки данных ссылаться на наборы данных в качестве источника из различных баз данных и решений хранения для создания целевых наборов данных. Список систем обработки данных, которые в настоящее время интегрированы с Microsoft Purview для происхождения данных, приведен в таблице ниже.
Система обработки данных | Поддерживаемые область |
---|---|
Воздушный поток | Происхождение Airflow |
Azure Data Share | Общий доступ к snapshot |
Фабрика данных Azure |
действие Copy Действие потока данных Выполнение действия пакета служб SSIS |
База данных Azure SQL (предварительная версия) | Извлечение происхождения для выполнения хранимых процедур |
Azure Synapse Analytics |
действие Copy Действие потока данных |
Системы хранения данных
Базы данных & решения для хранения, такие как Oracle, Teradata и SAP, имеют механизмы запросов для преобразования данных с помощью языка сценариев. Данные о происхождении данных из представлений, хранимых процедур и т. д. собираются в Microsoft Purview и сшовывается с данными происхождения из других систем. Происхождение данных поддерживается для следующих источников данных с помощью проверки данных Microsoft Purview. Дополнительные сведения о поддерживаемых сценариях происхождения данных см. в соответствующей статье.
Категория | Источник данных |
---|---|
Azure | Azure Databricks |
База данных | Cassandra |
Db2 | |
Google BigQuery | |
База данных хранилища метаданных Hive | |
MySQL | |
Oracle | |
PostgreSQL | |
Снежинка | |
Teradata | |
Службы и приложения | Erwin |
Looker | |
SAP ECC | |
SAP S/4HANA |
Системы аналитики данных и отчетов
Системы аналитики данных и отчетов, такие как Машинное обучение Azure и Power BI, в Microsoft Purview. Эти системы будут использовать наборы данных из систем хранения и обрабатывать их метамодуль для создания панелей мониторинга бизнес-аналитики, экспериментов машинного обучения и т. д.
Система отчетов для аналитики данных & | Поддерживаемые область |
---|---|
Power BI | Наборы данных, потоки данных, отчеты & панели мониторинга |
Начало работы с происхождением данных
Происхождение данных в Microsoft Purview включает наборы данных и процессы. Наборы данных также называются узлами, а процессы также могут называться ребрами:
Набор данных (Узел): набор данных (структурированный или неструктурированный), предоставляемый в качестве входных данных для процесса. Например, таблица SQL, BLOB-объект Azure и файлы (такие как .csv и .xml) считаются наборами данных. В разделе происхождения Microsoft Purview наборы данных представлены прямоугольными полями.
Процесс (edge): действие или преобразование, выполняемое в наборе данных, называется процессом. Например, ADF действие Copy, Data Share snapshot и т. д. В разделе происхождения microsoft Purview процессы представлены круглой рамкой.
Чтобы получить доступ к данным о происхождении ресурса в Microsoft Purview, выполните следующие действия:
Откройте портал управления Microsoft Purview, выполнив следующие действия.
- Перейдите непосредственно к https://web.purview.azure.com учетной записи Microsoft Purview и выберите ее.
- Открытие портал Azure, поиск и выбор учетной записи Microsoft Purview. Нажмите кнопку портала управления Microsoft Purview .
На домашней странице портала управления Microsoft Purview найдите имя набора данных или имя процесса, например ADF Копирование или Поток данных действие. Затем нажмите клавишу ВВОД.
В результатах поиска выберите ресурс и перейдите на его вкладку Происхождение .
Происхождение на уровне активов
Microsoft Purview поддерживает происхождение на уровне ресурсов для наборов данных и процессов. Чтобы просмотреть происхождение на уровне ресурса, перейдите на вкладку Происхождение текущего ресурса в каталоге. Выберите текущий узел ресурса набора данных. По умолчанию список столбцов, принадлежащих данным, отображается в левой области.
Происхождение происхождения вручную
Происхождение данных в Microsoft Purview автоматизировано для многих ресурсов в локальных, многооблачных средах и средах SaaS. Несмотря на то, что мы по-прежнему добавляем больше автоматизированных источников, ручное происхождение данных позволяет документировать метаданные происхождения для источников, где автоматизация еще не поддерживается, без использования кода.
Чтобы добавить данные происхождения вручную для любого из ресурсов, выполните следующие действия:
Найдите ресурс в каталоге данных и выберите его для просмотра сведений.
Выберите Изменить, перейдите на вкладку Происхождение и выберите Добавить происхождение вручную на нижней панели.
Чтобы настроить происхождение ресурсов, выполните следующие действия.
- Выберите раскрывающийся список ресурсов, чтобы найти ресурс из рекомендуемого списка, или Дополнительные сведения для поиска по полному каталогу. Выберите ресурс, на который вы хотите связать.
- Щелкните значок переключения, чтобы настроить направление связи как "Производит" (для подчиненного происхождения) или "Потребляет" (для вышестоящий происхождения).
- Если вы хотите удалить происхождение, щелкните значок корзины.
При добавлении происхождения данных между двумя ресурсами данных можно дополнительно настроить происхождение на уровне столбцов. Щелкните значок развертывания в начале строки, выберите вышестоящий и подчиненные столбцы из соответствующих раскрывающихся списков, чтобы настроить сопоставление столбцов. Щелкните значок "плюс", чтобы добавить дополнительные сведения о происхождении столбцов; Щелкните значок корзины, чтобы удалить существующие.
Чтобы добавить дополнительные сведения о происхождении на уровне ресурсов, снова нажмите кнопку Добавить происхождение происхождения вручную . По завершении нажмите кнопку Сохранить , чтобы сохранить происхождение и выйти из режима редактирования.
Известные ограничения происхождения данных вручную
- Текущий интерфейс средства выбора ресурсов позволяет одновременно выбирать только один ресурс.
- Происхождение данных на уровне столбцов вручную в настоящее время поддерживается для происхождения данных между двумя ресурсами данных, но не поддерживается, когда ресурс обработки участвует между ними.
- Доступ для курирования данных, необходимый как для исходных, так и для целевых ресурсов.
- Эти типы ресурсов в настоящее время не разрешают ручное происхождение, так как они поддерживают автоматическое происхождение:
- Фабрика данных Azure
- Конвейеры Synapse
- Наборы данных Power BI
- Хранимая процедура Teradata
- Azure SQL хранимая процедура
Происхождение столбцов набора данных
Чтобы просмотреть происхождение набора данных на уровне столбцов, перейдите на вкладку Происхождение текущего ресурса в каталоге и выполните следующие действия:
Когда вы перейдете на вкладку Происхождения данных, в левой области выберите поле проверка рядом с каждым столбцом, который вы хотите отобразить в происхождении данных.
Наведите указатель мыши на выбранный столбец на левой панели или в наборе данных холста происхождения, чтобы увидеть сопоставление столбцов. Выделены все экземпляры столбцов.
Если количество столбцов больше, чем может отображаться в левой области, используйте параметр фильтра, чтобы выбрать конкретный столбец по имени. Кроме того, можно использовать мышь для прокрутки списка.
Если холст происхождения содержит больше узлов и ребер, используйте фильтр для выбора ресурсов данных или узлов процесса по имени. Кроме того, можно использовать мышь для перемещения по окну происхождения.
Используйте переключатель в левой области, чтобы выделить список наборов данных на холсте происхождения. Если отключить переключатель, отобразится любой ресурс, содержащий хотя бы один из выбранных столбцов. Если включить переключатель, отображаются только наборы данных, содержащие все столбцы.
Обработка происхождения столбцов
Вы также можете просматривать процессы данных, такие как действия копирования, в каталоге данных. Например, в этом потоке происхождения выберите действие копирования:
Действие копирования будет развернуто, после чего можно нажать кнопку Переключиться на ресурс , которая предоставит дополнительные сведения о самом процессе.
Процесс обработки данных может принимать один или несколько входных наборов данных для создания одного или нескольких выходных данных. В Microsoft Purview для узлов процесса доступно происхождение происхождения на уровне столбцов.
Переключение между входными и выходными наборами данных из раскрывающегося списка на панели столбцов.
Выберите столбцы из одной или нескольких таблиц, чтобы увидеть происхождение данных, передаваемых из входного набора данных в соответствующий выходной набор данных.
Просмотр ресурсов в происхождении
Выберите Переключиться на ресурс для любого ресурса, чтобы просмотреть соответствующие метаданные из представления происхождения. Это эффективный способ перехода к другому ресурсу в каталоге из представления происхождения.
Холст происхождения может стать сложным для популярных наборов данных. Чтобы избежать беспорядка, в представлении по умолчанию будут отображаться только пять уровней происхождения для актива в фокусе. Остальную часть происхождения можно развернуть, выбрав пузырьки на холсте происхождения. Потребители данных также могут скрывать ресурсы на холсте, которые не представляют интереса. Чтобы еще больше уменьшить беспорядок, отключите переключатель Дополнительные сведения о происхождении в верхней части холста происхождения. Это действие скроет все пузырьки на холсте происхождения.
Используйте смарт-кнопки на холсте происхождения, чтобы получить оптимальное представление о происхождении:
- Полноэкранный режим
- Масштабирование в соответствии с
- Увеличение и уменьшение масштаба
- Автоматическое выравнивание
- Предварительный просмотр масштаба
- И другие варианты:
- Центрирование текущего ресурса
- Сброс до представления по умолчанию
Создание пользовательских данных происхождения вручную или с помощью REST API
Одной из важных функций платформы Microsoft Purview является возможность отображения происхождения между наборами данных, созданными процессами данных. Такие системы, как Фабрика данных, Data Share и Power BI, фиксируют происхождение данных при их перемещении. В некоторых ситуациях автоматическое создание происхождения данных Purview является неполным или отсутствует для практической визуализации и (или) корпоративной отчетности. В этих сценариях вы можете создавать пользовательские записи происхождения вручную на портале Microsoft Purview или с помощью перехватчиков Apache Atlas и REST API. Еще одним важным преимуществом использования REST API для создания отчетов или создания пользовательских данных происхождения является преодоление или уменьшение ограничений функциональности, предоставляемых вручную.
Чтобы создать пользовательские данные происхождения вручную, можно следовать руководству пользователя: Записи происхождения происхождения вручную в Microsoft Purview.
Чтобы создать пользовательское происхождение в Microsoft Purview с помощью REST API, следуйте этому руководству пользователя: Microsoft Purview — создание пользовательского происхождения с помощью REST API.
Совет
В некоторых случаях REST API могут предоставлять больше возможностей ввода и настройки, чем создавать записи происхождения вручную через портал.