Поделиться через


Получение происхождения данных из Airflow в Microsoft Purview (предварительная версия)

Airflow — это платформа автоматизации рабочих процессов и планирования с открытым кодом, которая может использоваться для создания конвейеров данных и управления ими. Microsoft Purview поддерживает сбор данных о происхождении данных Airflow путем интеграции с OpenLineage, открытой платформой для сбора и анализа данных. Узнайте, как Airflow работает с OpenLineage , здесь.

Включение OpenLineage в Airflow автоматически отслеживает метаданные и происхождение данных о заданиях и наборах данных по мере выполнения DAG. Сведения отправляются в настраиваемую Центры событий Azure. Microsoft Purview подписывается на события, анализирует их и вставляет в карту данных.

Важно!

Сейчас эта функция доступна в предварительной версии. Дополнительные условия использования предварительных версий Microsoft Azure включают дополнительные юридические условия, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или еще не выпущены в общедоступной версии.

Поддерживаемые возможности

Поддерживаемые версии Airflow: 1.10+ и 2.0-2.7.

Microsoft Purview поддерживает сбор метаданных и происхождения, если в Airflow используются следующие типы источников данных:

  • Amazon RDS для PostgreSQL
  • База данных Azure для PostgreSQL
  • Google BigQuery
  • Postgresql
  • Снежинка

Вместе с ней записываются следующие метаданные Airflow:

  • Рабочая область Airflow
  • Airflow DAG
  • Задача Airflow

Происхождение данных собирается в Microsoft Purview при успешном выполнении DAG на основе событий.

Известные ограничения

  • Происхождение данных на уровне столбцов в настоящее время не поддерживается. Схема ресурсов данных записывается.
  • Если в задачах используются ссылки на представления базы данных, они в настоящее время записываются в виде табличных ресурсов.
  • Все метаданные попадают в корневую коллекцию Microsoft Purview. Ресурсы, уже существующие в карте данных, сохраняются в настроенной коллекции.

Перенос происхождения airflow в Microsoft Purview

В качестве необходимого условия требуется работающий экземпляр Airflow.

Чтобы получить происхождение данных из Airflow в Microsoft Purview, необходимо:

  1. Настройка Центры событий Azure
  2. Настройка Центров событий для публикации сообщений в Microsoft Purview
  3. Настройка Airflow с помощью OpenLineage
  4. Запуск заданий Airflow и просмотр ресурсов или происхождения

Настройка Центры событий Azure

Настройте Центры событий Azure в качестве получателя метаданных и происхождения, отслеживаемых OpenLineage в Airflow.

  1. Создайте пространство имен Центры событий Azure.

  2. Создайте концентратор событий. Присвойте концентратору событий имя "microsoft_internal_openlineage".

    Снимок экрана: создание концентратора событий в Центры событий Azure

  3. Перейдите к концентраторам событий "microsoft_internal_openlineage" ->Управление доступом (IAM) ->Добавьте назначение ролей, назначьте роль "Центры событий Azure data Receiver" управляемому удостоверению учетной записи Microsoft Purview. Подробные инструкции см. в статье Назначение ролей Azure с помощью портал Azure.

Настройка Центров событий для публикации сообщений в Microsoft Purview

Microsoft Purview поддерживает использование и отправку событий из и в собственные Центры событий. Следуйте этой документации, чтобы настроить Центры событий для Microsoft Purview: настройка Центров событий с помощью Microsoft Purview для отправки и получения сообщений в разделах Atlas Kafka.

Сводка:

  • Перейдите на вкладку "Управляемые ресурсы" учетной> записи Microsoft Purview и отключите пространство имен управляемых Центров событий.

  • Перейдите на вкладку Конфигурация Kafka ->+ Добавить конфигурацию ->Перехватчик конфигурации, введите имя и выберите пространство имен Центров событий и Центры событий, созданные на предыдущем шаге.

    Снимок экрана: настройка Центров событий для публикации сообщений в Microsoft Purview

Настройка Airflow с помощью OpenLineage

Установки:

Чтобы скачать и установить последнюю библиотеку openlineage-airflow, обновите файл requirements.txt запущенного экземпляра Airflow следующим образом:

openlineage-airflow

Примечание.

Версия Airflow и версия openlineage-airflow должны совпадать. Например, при использовании Airflow 2.7.1 можно использовать openlineage-airflow версии 1.1.0 или 1.2.0. Соответствующие версии можно просмотреть на этом веб-сайте.

Конфигурации:

Затем настройте экземпляр Центры событий Azure в качестве целевого объекта, в который OpenLineage отправляет события.

  1. Создайте файл openlineage.yml в корневом пути Airflow. Содержимое файла:

    transport:
      type: "kafka"
      config:
        bootstrap.servers: "{EVENTHUB_SERVER}:9093"
        security.protocol: "SASL_SSL"
        sasl.mechanism: "PLAIN"
        sasl.username: "$ConnectionString"
        sasl.password: "{PASSWORD}"
        client.id: "airflow-client"
      topic: "microsoft_internal_openlineage"
      flash: True
    

    Замените два заполнители значениями:

    • Получите из {EVENTHUB_SERVER} пространства имен Центров событий —>Имя узла:

      Снимок экрана: получение имени узла из пространства имен Центров событий

    • {PASSWORD} Получите из пространства имен Центров событий —>политики общего доступа —>строка подключения — первичный ключ или строка подключения — вторичный ключ:

      Снимок экрана: получение ключа строки подключения концентратора событий

  2. Перезапустите сервер Airflow.

Запуск заданий Airflow и просмотр ресурсов или происхождения

Теперь можно запустить задания Airflow, а затем перейти на портал управления Microsoft Purview для просмотра, поиска и просмотра ресурсов. Ресурсы должны появиться вскоре после успешного запуска DAG.

Обзор ресурсов Airflow:

Снимок экрана: просмотр каталога данных по типу источника

Снимок экрана: просмотр источника Airflow для просмотра сведений

Просмотрите сведения об активе задачи Airflow с помощью данных о происхождении:

Снимок экрана: просмотр сведений о происхождении данных Airflow в ресурсе задач Airflow

Советы по устранению неполадок

Если вы запускаете задание Airflow, но не видите соответствующие ресурсы или происхождение, указанные в Microsoft Purview:

  • Проверьте, поддерживается ли вариант использования Airflow в Microsoft Purview. См. раздел Поддерживаемые возможности .
  • Перейдите к экземпляру Центров событий, чтобы проверка, если какие-либо входящие запросы и сообщения. Если нет, дважды проверка конфигурацию OpenLineage в Airflow.

Дальнейшие действия