Получение происхождения данных из Airflow в Microsoft Purview (предварительная версия)
Airflow — это платформа автоматизации рабочих процессов и планирования с открытым кодом, которая может использоваться для создания конвейеров данных и управления ими. Microsoft Purview поддерживает сбор данных о происхождении данных Airflow путем интеграции с OpenLineage, открытой платформой для сбора и анализа данных. Узнайте, как Airflow работает с OpenLineage , здесь.
Включение OpenLineage в Airflow автоматически отслеживает метаданные и происхождение данных о заданиях и наборах данных по мере выполнения DAG. Сведения отправляются в настраиваемую Центры событий Azure. Microsoft Purview подписывается на события, анализирует их и вставляет в карту данных.
Важно!
Сейчас эта функция доступна в предварительной версии. Дополнительные условия использования предварительных версий Microsoft Azure включают дополнительные юридические условия, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или еще не выпущены в общедоступной версии.
Поддерживаемые возможности
Поддерживаемые версии Airflow: 1.10+ и 2.0-2.7.
Microsoft Purview поддерживает сбор метаданных и происхождения, если в Airflow используются следующие типы источников данных:
- Amazon RDS для PostgreSQL
- База данных Azure для PostgreSQL
- Google BigQuery
- Postgresql
- Снежинка
Вместе с ней записываются следующие метаданные Airflow:
- Рабочая область Airflow
- Airflow DAG
- Задача Airflow
Происхождение данных собирается в Microsoft Purview при успешном выполнении DAG на основе событий.
Известные ограничения
- Происхождение данных на уровне столбцов в настоящее время не поддерживается. Схема ресурсов данных записывается.
- Если в задачах используются ссылки на представления базы данных, они в настоящее время записываются в виде табличных ресурсов.
- Все метаданные попадают в корневую коллекцию Microsoft Purview. Ресурсы, уже существующие в карте данных, сохраняются в настроенной коллекции.
Перенос происхождения airflow в Microsoft Purview
В качестве необходимого условия требуется работающий экземпляр Airflow.
Чтобы получить происхождение данных из Airflow в Microsoft Purview, необходимо:
- Настройка Центры событий Azure
- Настройка Центров событий для публикации сообщений в Microsoft Purview
- Настройка Airflow с помощью OpenLineage
- Запуск заданий Airflow и просмотр ресурсов или происхождения
Настройка Центры событий Azure
Настройте Центры событий Azure в качестве получателя метаданных и происхождения, отслеживаемых OpenLineage в Airflow.
Создайте концентратор событий. Присвойте концентратору событий имя "microsoft_internal_openlineage".
Перейдите к концентраторам событий "microsoft_internal_openlineage" ->Управление доступом (IAM) ->Добавьте назначение ролей, назначьте роль "Центры событий Azure data Receiver" управляемому удостоверению учетной записи Microsoft Purview. Подробные инструкции см. в статье Назначение ролей Azure с помощью портал Azure.
Настройка Центров событий для публикации сообщений в Microsoft Purview
Microsoft Purview поддерживает использование и отправку событий из и в собственные Центры событий. Следуйте этой документации, чтобы настроить Центры событий для Microsoft Purview: настройка Центров событий с помощью Microsoft Purview для отправки и получения сообщений в разделах Atlas Kafka.
Сводка:
Перейдите на вкладку "Управляемые ресурсы" учетной> записи Microsoft Purview и отключите пространство имен управляемых Центров событий.
Перейдите на вкладку Конфигурация Kafka ->+ Добавить конфигурацию ->Перехватчик конфигурации, введите имя и выберите пространство имен Центров событий и Центры событий, созданные на предыдущем шаге.
Настройка Airflow с помощью OpenLineage
Установки:
Чтобы скачать и установить последнюю библиотеку openlineage-airflow, обновите файл requirements.txt запущенного экземпляра Airflow следующим образом:
openlineage-airflow
Примечание.
Версия Airflow и версия openlineage-airflow должны совпадать. Например, при использовании Airflow 2.7.1 можно использовать openlineage-airflow версии 1.1.0 или 1.2.0. Соответствующие версии можно просмотреть на этом веб-сайте.
Конфигурации:
Затем настройте экземпляр Центры событий Azure в качестве целевого объекта, в который OpenLineage отправляет события.
Создайте файл openlineage.yml в корневом пути Airflow. Содержимое файла:
transport: type: "kafka" config: bootstrap.servers: "{EVENTHUB_SERVER}:9093" security.protocol: "SASL_SSL" sasl.mechanism: "PLAIN" sasl.username: "$ConnectionString" sasl.password: "{PASSWORD}" client.id: "airflow-client" topic: "microsoft_internal_openlineage" flash: True
Замените два заполнители значениями:
Перезапустите сервер Airflow.
Запуск заданий Airflow и просмотр ресурсов или происхождения
Теперь можно запустить задания Airflow, а затем перейти на портал управления Microsoft Purview для просмотра, поиска и просмотра ресурсов. Ресурсы должны появиться вскоре после успешного запуска DAG.
Обзор ресурсов Airflow:
Просмотрите сведения об активе задачи Airflow с помощью данных о происхождении:
Советы по устранению неполадок
Если вы запускаете задание Airflow, но не видите соответствующие ресурсы или происхождение, указанные в Microsoft Purview:
- Проверьте, поддерживается ли вариант использования Airflow в Microsoft Purview. См. раздел Поддерживаемые возможности .
- Перейдите к экземпляру Центров событий, чтобы проверка, если какие-либо входящие запросы и сообщения. Если нет, дважды проверка конфигурацию OpenLineage в Airflow.