Teilen über


Abrufen der Herkunft von Airflow in Microsoft Purview (Vorschau)

Airflow ist eine Open-Source-Plattform für Workflowautomatisierung und -planung, die zum Erstellen und Verwalten von Datenpipelines verwendet werden kann. Microsoft Purview unterstützt das Sammeln von Airflow-Datenherkunft durch die Integration in OpenLineage, einem offenen Framework für die Sammlung und Analyse von Datenherkunft. Hier erfahren Sie mehr über die Funktionsweise von Airflow mit OpenLineage.

Durch aktivieren von OpenLineage in Airflow werden Metadaten und Die Datenherkunft zu Aufträgen und Datasets automatisch nachverfolgt, während DAGs ausgeführt werden. Die Informationen werden an eine Azure Event Hubs gesendet, die Sie konfigurieren. Microsoft Purview abonniert die Ereignisse, analysiert sie und erfasst sie in der Datenzuordnung.

Wichtig

Dieses Feature ist derzeit in der Vorschau. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure Previews enthalten zusätzliche rechtliche Bestimmungen, die für Azure-Features gelten, die sich in der Betaversion, in der Vorschau oder anderweitig noch nicht in der allgemeinen Verfügbarkeit befinden.

Unterstützte Funktionen

Die unterstützten Airflow-Versionen sind 1.10+ und 2.0-2.7.

Microsoft Purview unterstützt die Metadaten- und Herkunftssammlung, wenn die folgenden Arten von Datenquellen in Airflow verwendet werden:

  • Amazon RDS for PostgreSQL
  • Azure Database for PostgreSQL
  • Google BigQuery
  • Postgresql
  • Schneeflocke

Die folgenden Airflow-Metadaten werden zusammen erfasst:

  • Airflow-Arbeitsbereich
  • Airflow DAG
  • Airflow-Aufgabe

Die Datenherkunft wird in Microsoft Purview erfasst, wenn die DAG erfolgreich auf ereignisbasierte Weise ausgeführt wird.

Bekannte Einschränkungen

  • Die Herkunft auf Spaltenebene wird derzeit nicht unterstützt. Das Schema der Datenassets wird erfasst.
  • Wenn in den Aufgaben auf Datenbanksichten verwiesen wird, werden sie derzeit als Tabellenressourcen erfasst.
  • Alle Metadaten werden in der Microsoft Purview-Stammsammlung erfasst. Die ressourcen, die bereits in der Data Map vorhanden sind, werden in der konfigurierten Sammlung beibehalten.

So bringen Sie die Airflow-Herkunft in Microsoft Purview

Als Voraussetzung benötigen Sie eine ausgeführte Airflow-instance.

Um die Herkunft von Airflow in Microsoft Purview zu erhalten, müssen Sie Folgendes ausführen:

  1. Einrichten einer Azure Event Hubs
  2. Konfigurieren von Event Hubs zum Veröffentlichen von Nachrichten in Microsoft Purview
  3. Konfigurieren Von Airflow mit OpenLineage
  4. Ausführen von Airflow-Aufträgen und Anzeigen der Ressourcen/Herkunft

Einrichten von Azure Event Hubs

Richten Sie eine Azure Event Hubs als Empfänger der Metadaten und Der Datenherkunft ein, die von OpenLineage in Airflow nachverfolgt werden.

  1. Erstellen Sie einen Azure Event Hubs Namespace.

  2. Erstellen Sie einen Event Hub. Benennen Sie Ihren Event Hub als "microsoft_internal_openlineage".

    Screenshot: Erstellen eines neuen Event Hubs in Azure Event Hubs

  3. Wechseln Sie zu Ihren Event Hubs "microsoft_internal_openlineage" ->Zugriffssteuerung (IAM) ->Rollenzuweisung hinzufügen, und weisen Sie der verwalteten Identität Ihres Microsoft Purview-Kontos die Rolle "Azure Event Hubs Datenempfänger" zu. Ausführliche Schritte finden Sie unter Zuweisen von Azure-Rollen mithilfe des Azure-Portal.

Konfigurieren von Event Hubs zum Veröffentlichen von Nachrichten in Microsoft Purview

Microsoft Purview unterstützt das Nutzen und Pushen von Ereignissen aus/an Ihre eigenen Event Hubs. Befolgen Sie dieses Dokument, um Event Hubs für Microsoft Purview: Konfigurieren von Event Hubs mit Microsoft Purview zum Senden und Empfangen von Atlas Kafka-Themennachrichten zu konfigurieren.

Zusammenfassend:

  • Wechseln Sie zur Registerkarte Verwaltete Ressourcen für Ihr Microsoft Purview-Konto> , und deaktivieren Sie den verwalteten Event Hubs-Namespace.

  • Wechseln Sie zur Registerkarte Kafka-Konfiguration ->+ Konfiguration hinzufügen ->Hookkonfiguration, geben Sie einen Namen ein, und wählen Sie den Event Hubs-Namespace und die Event Hubs aus, die Sie im vorherigen Schritt erstellt haben.

    Screenshot: Konfigurieren von Event Hubs zum Veröffentlichen von Nachrichten in Microsoft Purview

Konfigurieren Von Airflow mit OpenLineage

Installation:

Um die neueste Openlineage-airflow-Bibliothek herunterzuladen und zu installieren, aktualisieren Sie die Datei "requirements.txt" Ihres ausgeführten Airflow-instance mit:

openlineage-airflow

Hinweis

Die Airflow-Version und die openlineage-airflow-Version müssen übereinstimmen. Wenn Sie beispielsweise Airflow 2.7.1 verwenden, können Sie openlineage-airflow Version 1.1.0 oder 1.2.0 verwenden. Sie können übereinstimmende Versionen auf dieser Website anzeigen.

Konfiguration:

Konfigurieren Sie als Nächstes Ihre Azure Event Hubs instance als Ziel, an das OpenLineage die Ereignisse sendet.

  1. Erstellen Sie eine Datei "openlineage.yml" unter ihrem Airflow-Stammpfad. Der Inhalt der Datei ist wie folgt:

    transport:
      type: "kafka"
      config:
        bootstrap.servers: "{EVENTHUB_SERVER}:9093"
        security.protocol: "SASL_SSL"
        sasl.mechanism: "PLAIN"
        sasl.username: "$ConnectionString"
        sasl.password: "{PASSWORD}"
        client.id: "airflow-client"
      topic: "microsoft_internal_openlineage"
      flash: True
    

    Ersetzen Sie die beiden Platzhalter durch Werte:

    • Rufen Sie aus {EVENTHUB_SERVER} Ihrem Event Hubs-Namespace den>Hostnamen ab:

      Screenshot: Abrufen des Hostnamens aus dem Event Hubs-Namespace

    • Rufen Sie den {PASSWORD} aus Ihrem Event Hubs-Namespace ab – SAS-Richtlinien> –>Verbindungszeichenfolge – Primärschlüssel oder Verbindungszeichenfolge – Sekundärschlüssel:

      Screenshot: Abrufen des Event Hub-Verbindungszeichenfolgenschlüssels

  2. Starten Sie den Airflow-Server neu.

Ausführen von Airflow-Aufträgen und Anzeigen der Ressourcen/Herkunft

Sie können jetzt Ihre Airflow-Aufträge ausführen und dann zum Microsoft Purview-Governanceportal wechseln, um Ressourcen zu durchsuchen, zu suchen/anzuzeigen. Die Ressourcen sollten kurz nach einer erfolgreichen DAG-Ausführung angezeigt werden.

Durchsuchen von Airflow-Ressourcen:

Screenshot: Durchsuchen des Datenkatalogs nach Quelltyp

Screenshot: Durchsuchen der Airflow-Quelle zum Anzeigen von Details

Anzeigen von Details zum Airflow-Aufgabenobjekt mit Herkunft:

Screenshot: Anzeigen der Airflow-Herkunftsdetails für die Airflow-Aufgabenressource

Tipps zur Problembehandlung

Wenn Sie den Airflow-Auftrag ausführen, aber nicht die entsprechenden Ressourcen/Datenherkunft in Microsoft Purview angezeigt werden:

  • Überprüfen Sie, ob Ihr Airflow-Anwendungsfall von Microsoft Purview unterstützt wird. Weitere Informationen finden Sie im Abschnitt unterstützte Funktionen .
  • Wechseln Sie zu Ihrem Event Hubs-instance, um zu überprüfen, ob eingehende Anforderungen und Nachrichten vorhanden sind. Wenn nein, überprüfen Sie ihre OpenLineage-Konfiguration in Airflow.

Nächste Schritte