Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Datenlinie zeigt, wo Daten in Azure Databricks stammen und wo sie sich befinden: welche Abfragen und Dateien eine Tabelle auffüllen, welche Aufträge und Notizbücher sie transformieren und welche Dashboards die Ergebnisse nutzen.
Unity Catalog erfasst die Linien automatisch für Abfragen, die auf Azure Databricks ausgeführt werden, bis zur Spaltenebene und aggregiert sie für alle Arbeitsbereiche, die an den Metaspeicher angefügt sind. Die Lineage im Unity-Katalog ermöglicht Folgendes:
- Durchführen einer Auswirkungsanalyse: Bevor Sie eine Tabelle oder Spalte ändern oder löschen, identifizieren Sie die nachgeschalteten Tabellen, Aufträge und Dashboards, die davon abhängig sind.
- Untersuchen Sie die Ursachen: Wenn ein nachgelagerter Bericht unerwartete Ergebnisse anzeigt, verfolgen Sie upstream-Quellen, um zu ermitteln, wo die Daten voneinander abweichen.
- Vertrauliche Datenflüsse nachverfolgen: Für Compliance-Prüfungen sehen Sie, wo regulierte Daten ihren Ursprung haben, wie sie umgewandelt werden und welche nachgelagerten Assets diese Daten nutzen.
- Grundlegendes zu teamübergreifenden Abhängigkeiten: Ermitteln Sie, welche Teams die upstream-Quellen besitzen, auf die Sie sich verlassen, oder welche Teams Ihre Tabellen nutzen.
Externe Linien (Öffentliche Vorschau) erweitern das Liniendiagramm über Azure Databricks hinaus. Registrieren Sie upstream-Quellen wie Salesforce oder MySQL und downstream Tools wie Tableau oder Power BI als externe Ressourcen im Unity-Katalog, und sie werden zusammen mit Ihren Unity-Katalogtabellen in einem einzelnen Diagramm angezeigt. Siehe "Eigene Datenlinie mitbringen".
Das folgende Bild ist ein Beispiel für einen Herkunfts-Graph. Knoten können Tabellen und Ansichten, ML-Modellversionen, externe Ressourcen und Dateipfade darstellen.
Anforderungen
So erfassen Sie die Datenlinie mithilfe des Unity-Katalogs:
- Tabellen müssen in einem Unity Catalog-Metastore registriert sein.
- Externe Ressourcen (die nicht im Unity-Katalog-Metastore registriert sind) müssen als externe Metadatenobjekte im Unity-Katalog hinzugefügt werden, die so konfiguriert sind, dass Beziehungen zu anderen sicherungsfähigen Objekten im Unity-Katalog-Metastore registriert sind. Siehe "Eigene Datenlinie mitbringen".
- Abfragen müssen die Spark DataFrame (z. B. Spark SQL-Funktionen, die einen DataFrame zurückgeben) oder Databricks SQL-Schnittstellen wie Notizbücher oder den SQL-Abfrageeditor verwenden.
Anzeigen der Datenherkunft:
- Sie müssen mindestens über die Berechtigungen
BROWSEfür den übergeordneten Katalog der Tabelle oder Ansicht verfügen. Der übergeordnete Katalog muss auch über den Arbeitsbereich zugänglich sein. Siehe Arbeitsbereich-Katalogbindung. - Für Notizbücher, Aufträge oder Dashboards müssen Sie über Berechtigungen für diese Objekte verfügen, wie sie durch die Zugriffssteuerungseinstellungen im Arbeitsbereich definiert sind. Ausführliche Informationen finden Sie unter Berechtigungen.
- Für eine Unity Catalog-fähige Pipeline müssen Sie über die BERECHTIGUNG CAN VIEW für die Pipeline verfügen.
Computeanforderungen:
- Die Nachverfolgung der Datenherkunft des Streamings zwischen Delta-Tabellen erfordert Databricks Runtime 11.3 LTS oder höher.
- Die Spaltenleitungsnachverfolgung für Lakeflow Spark Declarative Pipelines-Workloads erfordert Databricks Runtime 13.3 LTS oder höher.
Netzwerkanforderungen:
- Möglicherweise müssen Sie Ihre ausgehenden Firewallregeln aktualisieren, um die Konnektivität mit dem Event Hubs-Endpunkt in der Azure Databricks Steuerebene zu ermöglichen. Dies gilt in der Regel, wenn Ihr Azure Databricks Arbeitsbereich in Ihrem eigenen VNet bereitgestellt wird (auch als VNet-Injektion bezeichnet). Weitere Informationen zum Abrufen des Event Hubs-Endpunkts für Ihre Arbeitsbereichsregion finden Sie unter Die IP-Adressen von Metastore, Artefaktblobspeicher, Systemtabellenspeicher, Protokollblobspeicher und Event Hubs-Endpunkt. Informationen zum Einrichten benutzerdefinierter Routen (USER-Defined Routes, UDR) für Azure Databricks finden Sie unter Benutzerdefinierte Routeneinstellungen für Azure Databricks.
Anzeigen der Linien im Katalog-Explorer
So verwenden Sie den Katalog-Explorer, um die Tabellendatenherkunft anzuzeigen:
Klicken Sie in Ihrem Azure Databricks Arbeitsbereich auf
Catalog.
Suchen oder durchsuchen Sie Ihre Tabelle.
Wählen Sie die Registerkarte "Linie" aus . Der Bereich "Linie" wird angezeigt und zeigt verwandte Tabellen an.
Um ein interaktives Diagramm der Datenlinie anzuzeigen, klicken Sie auf "Liniendiagramm anzeigen".
Standardmäßig wird eine Ebene im Diagramm angezeigt. Klicken Sie auf das
auf einem Knoten, um weitere Verbindungen anzuzeigen, wenn sie verfügbar sind.Klicken Sie auf das Symbol auf einem Verbindungsrand im Liniendiagramm, um den Bereich " Liniendetails " zu öffnen.
Im Bereich "Liniendetails " werden Details zur Verbindung angezeigt, einschließlich Quell- und Zieltabellen.
Um eine Ressource anzuzeigen, die einer Tabelle zugeordnet ist, wählen Sie das Objekt im Bereich "Liniendetails " aus. Sie können nach Notizbüchern, Aufträgen, Pipelines und Abfragen filtern.
Klicken Sie zum Anzeigen der Linien auf Spaltenebene auf eine Spalte im Diagramm, um Verknüpfungen zu verwandten Spalten anzuzeigen. Wenn Sie beispielsweise auf die
revenueSpalte in diesem Beispieldiagramm klicken, werden die vorgelagerten Spalten angezeigt, von denen die Spalte abgeleitet wurde:
Job-Herkunft anzeigen
Um die Auftragslinie anzuzeigen, wechseln Sie zur Registerkarte " Lineage " einer Tabelle, wählen Sie "Aufträge" und dann "Downstream" aus. Der Job Name erscheint unter Job Name als Consumer der Tabelle.
Dashboarddatenherkunft anzeigen
Um die Dashboardlinie anzuzeigen, wechseln Sie zur Registerkarte " Linien " einer Tabelle, und klicken Sie auf "Dashboards". Das Dashboard wird unter Dashboardname als Nutzer der Tabelle angezeigt.
Lineage mit Genie Code abrufen
Genie Code kann Linienfragen in natürlicher Sprache beantworten.
So rufen Sie Zeileninformationen mithilfe von Genie Code ab:
- Klicken Sie in der Arbeitsbereichs-Randleiste auf das
Katalog.
- Durchsuchen oder suchen Sie im Katalog, klicken Sie auf den Katalognamen und dann auf das
Genie Code-Symbol in der oberen rechten Ecke.
- Geben Sie an der Eingabeaufforderung von Genie Code Folgendes ein:
-
/getTableLineagesum upstream- und downstream-Abhängigkeiten anzuzeigen. -
/getTableInsightsum auf metadatengesteuerte Einblicke zuzugreifen, z. B. Benutzeraktivität und Abfragemuster.
-
Mit diesen Abfragen kann Genie Code Fragen wie "Nachgelagerte Linien anzeigen" oder "wer diese Tabelle am häufigsten abfragt" beantworten.
Abfragelinie mit Systemtabellen
Sie können die Herkunftssystemtabellen verwenden, um Herkunftsdaten programmgesteuert abzufragen. Ausführliche Anweisungen finden Sie unter Referenz zu Systemtabellen und Systemtabellen für Linien.
Erlaubnisse
Liniendiagramme verwenden das gleiche Berechtigungsmodell wie Unity-Katalog. Tabellen und andere im Unity-Katalog-Metaspeicher registrierte Datenobjekte sind nur für Benutzer sichtbar, die mindestens BROWSE über Berechtigungen für diese Objekte verfügen. Wenn ein Benutzer nicht über das BROWSE- oder SELECT-Privileg für eine Tabelle verfügt, kann er deren Herkunft nicht erkunden.
Die Linie wird über alle Arbeitsbereiche aggregiert, die einem Unity Catalog-Metastore zugeordnet sind, sodass die in einem Arbeitsbereich erfasste Linie in jedem anderen Arbeitsbereich sichtbar ist, der diesen Metaspeicher freigibt, solange der Benutzer über ausreichende Objektberechtigungen verfügt. Detaillierte Informationen zu Objekten auf Arbeitsbereichsebene wie Notizbüchern und Dashboards in anderen Arbeitsbereichen sind maskiert. Informationen finden Sie unter Einschränkungen.
Führen Sie beispielsweise die folgenden Befehle für userA:
GRANT USE SCHEMA on lineage_data.lineagedemo to `userA@company.com`;
GRANT SELECT on lineage_data.lineagedemo.menu to `userA@company.com`;
Wenn userA das Lineage-Diagramm für die Tabelle lineage_data.lineagedemo.menu anzeigt, sehen sie die Tabelle menu. Sie können keine Informationen zu zugeordneten Tabellen anzeigen, z. B. die nachgeschaltete lineage_data.lineagedemo.dinner Tabelle. Die dinner-Tabelle erscheint für userA als masked-Knoten, und userA kann den Graphen nicht erweitern, um nachgelagerte Tabellen von Tabellen sichtbar zu machen, auf die kein Zugriffsrecht besteht.
Wenn Sie den folgenden Befehl ausführen, um die BROWSE Berechtigung zu userBerteilen, kann dieser Benutzer das Liniendiagramm für eine beliebige Tabelle im lineage_data Schema anzeigen:
GRANT BROWSE on lineage_data to `userB@company.com`;
Lineage-Benutzer müssen auch über bestimmte Berechtigungen zum Anzeigen von Arbeitsbereichsobjekten wie Notizbüchern, Aufträgen und Dashboards verfügen. Detaillierte Informationen zu diesen Objekten sind nur im Arbeitsbereich sichtbar, in dem sie erstellt wurden.
Weitere Informationen zum Verwalten des Zugriffs auf sicherungsfähige Objekte im Unity-Katalog finden Sie unter Verwalten von Berechtigungen im Unity-Katalog. Weitere Informationen zum Verwalten des Zugriffs auf Arbeitsbereichsobjekte wie Notizbücher, Aufträge und Dashboards finden Sie unter Access-Steuerelementlisten.
Retention
Im Katalog-Explorer angezeigte Liniendaten bleiben unbegrenzt erhalten. Alle nach dem 1. September 2024 erfassten Liniendaten sind verfügbar. Für Metastores, die nach diesem Datum erstellt wurden, umfasst der Katalog-Explorer im Dropdown-Menü für den Lineage-Zeitbereich die Option Gesamte Zeit. Bei älteren Metastores enthält das Dropdown eine Option "Alle verfügbar ", die ab dem 1. September 2024 beginnt. Die Standardauswahl ist 1 Jahr.
Liniensystemtabellen (system.access.table_lineage und system.access.column_lineage) behalten ein rollierendes 1-Jahres-Datenfenster bei. Siehe Referenz der Lineage-Systemtabellen.
Einschränkungen
Die Datenlinie weist die folgenden Einschränkungen auf. Diese Einschränkungen gelten auch für Zeilensystemtabellen:
- Die vor dem 1. September 2024 erfassten Liniendaten sind nicht verfügbar.
- Aufträge, die die Auftrags-API-Anforderung
runs submitoder denspark submitAufgabentyp verwenden, sind in Zeilenansichten nicht verfügbar. Tabellen- und Spaltenebenenherkunft wird für diese Workflows weiterhin gesammelt, aber die Verknüpfung zum Auftrag wird nicht erfasst. - Die Linie wird nicht für umbenannte Kataloge, Schemas, Tabellen, Ansichten oder Spalten beibehalten.
- Wenn Sie Spark SQL-Dataset-Prüfpunkte verwenden, wird die Herkunft nicht erfasst.
- Unity Catalog erfasst die Lineage von Lakeflow Spark Declarative Pipelines in den meisten Fällen, aber die Abdeckung ist für Pipelines, die PRIVATE Tabellen verwenden, unvollständig.
- Ausfallsichere verteilte Datasets (RDDs) werden nicht in Linien erfasst.
- Globale temporäre Sichten werden nicht nach Datenherkunft erfasst.
- Transaktionen emittieren eine Linie, während jeder Lese- und Schreibvorgang auftritt. Lineage-Ereignisse bleiben auch dann erhalten, wenn die Transaktion zurückgesetzt wird.
- Tabellen unter
system.information_schemawerden nicht nach Datenherkunft erfasst. - Unity Catalog erfasst so weit wie möglich die Datenherkunft auf Spaltenebene. Es gibt jedoch einige Fälle, in denen die Datenherkunft auf Spaltenebene nicht erfasst werden kann. Dazu gehören:
Spaltenlinien können nicht erfasst werden, wenn die Quelle oder das Ziel als Pfad referenziert wird (Beispiel:
select * from delta."s3://<bucket>/<path>"). Spaltenlinien werden nur unterstützt, wenn sowohl die Quelle als auch das Ziel nach Tabellenname referenziert werden (Beispiel:select * from <catalog>.<schema>.<table>).Verwendung von benutzerdefinierten Funktionen (USER-Defined Functions, UDFs), wodurch die Zuordnung zwischen Quell- und Zielspalten verdeckt werden kann.
Weitere Ressourcen
- Demo: Unity-Katalog – Datenlinie
- ML-Modelllinie: Informationen zum Nachverfolgen der Linien für ein Machine Learning-Modell finden Sie unter "Nachverfolgen der Datenlinie eines Modells im Unity-Katalog".
- Tabellenerkenntnisse: Auf der Registerkarte "Insights " im Katalog-Explorer werden Nutzungstrends für eine Tabelle angezeigt: Abfragemuster, top-Benutzer und Dashboards, die sie lesen. Siehe Anzeigen häufiger Abfragen und Benutzer einer Tabelle.