Herstellen einer Verbindung zwischen Azure Data Factory und Microsoft Purview
Artikel
In diesem Dokument werden die Schritte erläutert, die zum Verbinden eines Azure Data Factory-Kontos mit einem Microsoft Purview-Konto erforderlich sind, um die Datenherkunft nachzuverfolgen und Datenquellen zu erfassen. In dem Dokument werden auch die Details des Aktivitätsabdeckungsbereichs und der unterstützten Herkunftsmuster erläutert.
Wenn eine Datenquelle bereits gescannt wurde und in der Datenzuordnung vorhanden ist, fügt der Erfassungsprozess die Herkunftsinformationen aus Azure Data Factory dieser vorhandenen Quelle hinzu. Wenn die Quelle oder Ausgabe nicht in der Data Map vorhanden ist und von Azure Data Factory Herkunft unterstützt wird, fügt Microsoft Purview automatisch metadaten aus Azure Data Factory der Data Map unter der Stammsammlung hinzu.
Dies kann eine hervorragende Möglichkeit sein, Ihren Datenbestand zu überwachen, wenn Benutzer Informationen mithilfe von Azure Data Factory verschieben und transformieren.
Anzeigen vorhandener Data Factory-Verbindungen
Mehrere Azure Data Factorys können eine Verbindung mit einem einzelnen Microsoft Purview herstellen, um Datenherkunftsinformationen per Push zu übertragen. Mit dem aktuellen Grenzwert können Sie über das Microsoft Purview Management Center bis zu 10 Data Factory-Konten gleichzeitig verbinden. Gehen Sie wie folgt vor, um die Liste der Data Factory-Konten anzuzeigen, die mit Ihrem Microsoft Purview-Konto verbunden sind:
Wählen Sie im linken Navigationsbereich Verwaltung aus.
Wählen Sie unter Herkunftsverbindungen die Option Data Factory aus.
Die Data Factory-Verbindungsliste wird angezeigt.
Beachten Sie die verschiedenen Werte für Verbindungsstatus:
Verbunden: Die Data Factory ist mit dem Microsoft Purview-Konto verbunden.
Getrennt: Data Factory hat Zugriff auf den Katalog, ist aber mit einem anderen Katalog verbunden. Daher wird die Datenherkunft nicht automatisch an den Katalog gemeldet.
Unbekannt: Der aktuelle Benutzer hat keinen Zugriff auf Data Factory, sodass die Verbindung status unbekannt ist.
Hinweis
Zum Anzeigen der Data Factory-Verbindungen muss Ihnen die folgende Rolle zugewiesen werden. Die Rollenvererbung aus einer Verwaltungsgruppe wird nicht unterstützt.
Rolle "Sammlungsadministratoren" für die Stammsammlung.
Erstellen einer neuen Data Factory-Verbindung
Hinweis
Zum Hinzufügen oder Entfernen der Data Factory-Verbindungen muss Ihnen die folgende Rolle zugewiesen werden. Die Rollenvererbung aus einer Verwaltungsgruppe wird nicht unterstützt.
Rolle "Sammlungsadministratoren" für die Stammsammlung.
Außerdem müssen die Benutzer als "Besitzer" oder "Mitwirkender" der Data Factory verwendet werden.
Für Ihre Data Factory muss eine vom System zugewiesene verwaltete Identität aktiviert sein.
Wählen Sie im linken Navigationsbereich Verwaltung aus.
Wählen Sie unter Herkunftsverbindungen die Option Data Factory aus.
Wählen Sie auf der Seite Data Factory-Verbindungdie Option Neu aus.
Wählen Sie In der Liste Ihr Data Factory-Konto und dann OK aus. Sie können auch nach dem Abonnementnamen filtern, um Ihre Liste einzuschränken.
Einige Data Factory-Instanzen sind möglicherweise deaktiviert, wenn die Data Factory bereits mit dem aktuellen Microsoft Purview-Konto verbunden ist oder die Data Factory keine verwaltete Identität hat.
Wenn eine der ausgewählten Data Factorys bereits mit einem anderen Microsoft Purview-Konto verbunden ist, wird eine Warnmeldung angezeigt. Wenn Sie OK auswählen, wird die Data Factory-Verbindung mit dem anderen Microsoft Purview-Konto getrennt. Es sind keine weiteren Bestätigungen erforderlich.
Hinweis
Wir unterstützen das Gleichzeitige Hinzufügen von bis zu 10 Azure Data Factory Konten. Wenn Sie mehr als 10 Data Factory-Konten hinzufügen möchten, tun Sie dies in mehreren Batches.
Funktionsweise der Authentifizierung
Die verwaltete Identität von Data Factory wird verwendet, um Datenherkunfts-Pushvorgänge von Data Factory an Microsoft Purview zu authentifizieren. Wenn Sie Ihre Data Factory mit Microsoft Purview auf der Benutzeroberfläche verbinden, wird die Rollenzuweisung automatisch hinzugefügt.
Microsoft Purview löscht die Herkunft, wenn die Quelle oder das Ziel ein nicht unterstütztes Datenspeichersystem verwendet.
Die Integration zwischen Data Factory und Microsoft Purview unterstützt nur eine Teilmenge der Von Data Factory unterstützten Datensysteme, wie in den folgenden Abschnitten beschrieben.
Copy-Aktivität Support
Datenspeicher
Unterstützt
Azure Blob Storage
Ja
Azure Cognitive Search
Ja
Azure Cosmos DB for NoSQL *
Ja
Azure Cosmos DB for MongoDB *
Ja
Azure Data Explorer *
Ja
Azure Data Lake Storage Gen1
Ja
Azure Data Lake Storage Gen2
Ja
Azure Database for MariaDB *
Ja
Azure Database for MySQL *
Ja
Azure Database for PostgreSQL *
Ja
Azure Files
Ja
Azure SQL-Datenbank *
Ja
Azure SQL Managed Instance *
Ja
Azure Synapse Analytics *
Ja
Dedizierter Azure SQL-Pool (früher SQL DW) *
Ja
Azure Table Storage
Ja
Amazon S3
Ja
Bienenkorb*
Ja
Orakel*
Ja
SAP-Tabelle (beim Herstellen einer Verbindung mit SAP ECC oder SAP S/4HANA)
Ja
SQL Server *
Ja
Teradata *
Ja
* Microsoft Purview unterstützt derzeit keine Abfrage oder gespeicherte Prozedur für Die Herkunft oder Überprüfung. Die Herkunft ist nur auf Tabellen- und Sichtquellen beschränkt.
Wenn Sie selbstgehostete Integration Runtime verwenden, beachten Sie die Minimale Version mit Herkunftsunterstützung für:
Beliebiger Anwendungsfall: Version 5.9.7885.3 oder höher
Kopieren von Daten aus Oracle: Version 5.10 oder höher
Kopieren von Daten in Azure Synapse Analytics per COPY-Befehl oder PolyBase: Version 5.10 oder höher
Einschränkungen bei der Herkunft der Kopieraktivität
Wenn Sie die folgenden Features der Kopieraktivität verwenden, wird die Herkunft derzeit noch nicht unterstützt:
Kopieren Sie Daten mithilfe des Binärformats in Azure Data Lake Storage Gen1.
Komprimierungseinstellung für Binärdateien, durch Trennzeichen getrennte Text-, Excel-, JSON- und XML-Dateien.
Quellpartitionsoptionen für Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server und SAP Table.
Kopieren Sie Daten in eine dateibasierte Senke mit der Einstellung max. Zeilen pro Datei.
Die Herkunft auf Spaltenebene wird derzeit von der Kopieraktivität nicht unterstützt, wenn die Quelle/Senke eine Ressourcengruppe ist.
Zusätzlich zur Herkunft wird das Datenassetschema (auf der Registerkarte Asset –> Schema) für die folgenden Connectors gemeldet:
CSV- und Parquet-Dateien in Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 und Amazon S3
* Microsoft Purview unterstützt derzeit keine Abfrage oder gespeicherte Prozedur für Die Herkunft oder Überprüfung. Die Herkunft ist nur auf Tabellen- und Sichtquellen beschränkt.
Einschränkungen der Datenflussherkunft
Die Datenflussherkunft kann ressourcensatz auf Ordnerebene generieren, ohne dass die beteiligten Dateien sichtbar sind.
Die Herkunft auf Spaltenebene wird derzeit nicht unterstützt, wenn die Quelle/Senke eine Ressourcengruppe ist.
Für die Herkunft der Datenflussaktivität unterstützt Microsoft Purview nur die Anzeige der beteiligten Quelle und Senke. Die detaillierte Datenherkunft für die Datenflusstransformation wird noch nicht unterstützt.
Die Herkunft wird nicht unterstützt, wenn Flowlets Teil des Dataflows sind.
Derzeit unterstützt Purview keine Herkunftsberichterstellung für Synapse-Tabellen (LakeHouse DB/Workspace DB)
Es gibt mehrere Muster der Herkunft, die Microsoft Purview unterstützt. Die generierten Datenherkunftsdaten basieren auf dem Typ der Quelle und Senke, die in den Data Factory-Aktivitäten verwendet werden. Obwohl Data Factory mehr als 80 Quellen und Senken unterstützt, unterstützt Microsoft Purview nur eine Teilmenge, wie unter Unterstützte Azure Data Factory Aktivitäten aufgeführt.
Einige andere Möglichkeiten zum Auffinden von Informationen in der Herkunftsansicht umfassen Folgendes:
Zeigen Sie auf der Registerkarte Herkunft auf Shapes, um zusätzliche Informationen zum Medienobjekt in der QuickInfo anzuzeigen.
Wählen Sie den Knoten oder Edge aus, um den Objekttyp anzuzeigen, zu dem er gehört, oder um Ressourcen zu wechseln.
Spalten eines Datasets werden auf der linken Seite der Registerkarte Herkunft angezeigt. Weitere Informationen zur Herkunft auf Spaltenebene finden Sie unter Datasetspaltenherkunft.
Datenherkunft für 1:1-Vorgänge
Das häufigste Muster zum Erfassen der Datenherkunft ist das Verschieben von Daten aus einem einzelnen Eingabedataset in ein einzelnes Ausgabedataset mit einem Prozess dazwischen.
Datenverschiebung mit 1:1-Herkunfts- und Wildcardunterstützung
Ein weiteres gängiges Szenario zum Erfassen der Herkunft ist die Verwendung eines Wildcards zum Kopieren von Dateien aus einem einzelnen Eingabedataset in ein einzelnes Ausgabedataset. Der Wildcard ermöglicht es der Kopieraktivität, mehrere Dateien zum Kopieren mithilfe eines gemeinsamen Teils des Dateinamens abzugleichen. Microsoft Purview erfasst die Herkunft auf Dateiebene für jede einzelne Datei, die von der entsprechenden Kopieraktivität kopiert wurde.
Sie können Datenfluss Aktivitäten verwenden, um Datenvorgänge wie Zusammenführung, Verknüpfung usw. auszuführen. Zum Erstellen eines Zieldatasets können mehrere Quelldatasets verwendet werden. In diesem Beispiel erfasst Microsoft Purview die Herkunft einzelner Eingabedateien auf Dateiebene in einer SQL-Tabelle, die Teil einer Datenfluss-Aktivität ist.
Ein Ressourcensatz ist ein logisches Objekt im Katalog, das viele Partitionsdateien im zugrunde liegenden Speicher darstellt. Weitere Informationen finden Sie unter Grundlegendes zu Ressourcensätzen. Wenn Microsoft Purview die Herkunft aus dem Azure Data Factory erfasst, wendet es die Regeln an, um die einzelnen Partitionsdateien zu normalisieren und ein einzelnes logisches Objekt zu erstellen.
Im folgenden Beispiel wird eine Azure Data Lake Gen2-Ressourcengruppe aus einem Azure-Blob erstellt:
Zeigen Sie Ihre Kenntnisse von allgemeinen Datentechnikaufgaben zum Implementieren und Verwalten von Datentechnikworkloads in Microsoft Azure unter Verwendung verschiedener Azure-Dienste.
In diesem Artikel wird beschrieben, wie Sie die Herkunft von freigegebenen Datasets anzeigen, die mithilfe von Microsoft Purview Data Sharing freigegeben werden.
Dieser Artikel enthält die Schritte zum Erstellen benutzerdefinierter Herkunftseinträge in Microsoft Purview mit den REST-APIs. In diesem Leitfaden können Sie eine benutzerdefinierte Herkunft mit den REST-APIs erstellen, neue Informationen hinzufügen oder vorhandene Herkunftseinträge zusammenfügen.
In diesem Artikel wird beschrieben, wie Sie ein Azure Data Share-Konto mit Microsoft Purview verbinden, um Ressourcen zu durchsuchen und die Datenherkunft nachzuverfolgen.