Dieser Artikel bietet eine Übersicht über die Datenherkunft in Microsoft Purview Data Catalog. Außerdem wird erläutert, wie Datensysteme in den Katalog integriert werden können, um die Datenherkunft zu erfassen. Microsoft Purview kann die Datenherkunft für Daten in verschiedenen Teilen des Datenbestands Ihrer organization und auf verschiedenen Vorbereitungsebenen erfassen, einschließlich:
Von verschiedenen Plattformen bereitgestellte Rohdaten
Transformierte und vorbereitete Daten
Von Visualisierungsplattformen verwendete Daten
Anwendungsfälle
Datenherkunft wird allgemein als der Lebenszyklus verstanden, der den Ursprung der Daten umfasst und in dem sie im Laufe der Zeit über den Datenbestand verschoben werden. Es wird für verschiedene Arten von abwärtsgerichteten Szenarien verwendet, z. B. Problembehandlung, Ablaufverfolgung der Grundursache in Datenpipelines und Debuggen. Die Datenherkunft wird auch für Datenanalysen, Compliance- und Was-wäre-wenn-Szenarien verwendet, die häufig als Auswirkungsanalyse bezeichnet werden. Die Herkunft wird visuell dargestellt, um Daten anzuzeigen, die von der Quelle zum Ziel verschoben werden, einschließlich der Art, wie die Daten transformiert wurden. Angesichts der Komplexität der meisten Unternehmensdatenumgebungen können diese Ansichten ohne eine gewisse Konsolidierung oder Maskierung von Peripheriedatenpunkten schwer zu verstehen sein.
Datenherkunft in Microsoft Purview Data Catalog
Microsoft Purview Data Catalog verbinden sich mit anderen Datenverarbeitungs-, Speicher- und Analysesystemen, um Herkunftsinformationen zu extrahieren. Die Informationen werden kombiniert, um eine generische, szenariospezifische Herkunftserfahrung im Katalog darzustellen.
Ihr Datenbestand kann Systeme umfassen, die Datenextraktion, Transformation (ETL/ELT-Systeme), Analyse- und Visualisierungssysteme durchführen. Jedes der Systeme erfasst umfangreiche statische und operative Metadaten, die den Zustand und die Qualität der Daten innerhalb der Systemgrenze beschreiben. Das Ziel der Datenherkunft in einem Datenkatalog besteht darin, die Bewegungs-, Transformations- und Betriebsmetadaten aus jedem Datensystem so gering wie möglich zu extrahieren.
Das folgende Beispiel ist ein typischer Anwendungsfall für Daten, die über mehrere Systeme verschoben werden, wobei die Data Catalog für die Herkunft eine Verbindung mit jedem der Systeme herstellen würden.
Data Factory kopiert Daten aus einer lokalen/unformatierten Zone in eine Zielzone in der Cloud.
Datenverarbeitungssysteme wie Synapse und Databricks würden Daten mithilfe von Notebooks aus der Zielzone in eine kuratierte Zone verarbeiten und transformieren.
Weitere Verarbeitung von Daten in analytische Modelle für eine optimale Abfrageleistung und -aggregation.
Datenvisualisierungssysteme nutzen die Datasets und verarbeiten sie über ihr Metamodell, um ein BI-Dashboard, ML-Experimente usw. zu erstellen.
Granularität der Herkunft
Im folgenden Abschnitt werden die Details zur Granularität behandelt, deren Herkunftsinformationen von Microsoft Purview gesammelt werden. Diese Granularität kann je nach den in Microsoft Purview unterstützten Datensystemen variieren.
Herkunft auf Entitätsebene: Quelle(n) Prozessziel>(en) >
Die Herkunft wird als Graph dargestellt. In der Regel enthält sie Quell- und Zielentitäten in Datenspeichersystemen, die durch einen Prozess verbunden sind, der von einem Computesystem aufgerufen wird.
Datensysteme stellen eine Verbindung mit dem Datenkatalog her, um ein eindeutiges Objekt zu generieren und zu melden, das auf das physische Objekt des zugrunde liegenden Datensystems verweist, z. B. gespeicherte SQL-Prozedur, Notebooks usw.
Die Herkunft mit hoher Genauigkeit mit anderen Metadaten wie Besitz wird erfasst, um die Herkunft in einem lesbaren Format für Quellzielentitäten & anzuzeigen. Beispiel: Herkunft auf Hive-Tabellenebene anstelle von Partitionen oder Dateiebene.
Herkunft auf Spalten- oder Attributebene
Identifizieren Sie Attribute einer Quellentität, die zum Erstellen oder Ableiten von Attributen in der Zielentität verwendet wird. Der Name des Quellattributes kann in einem Ziel beibehalten oder umbenannt werden. Systeme wie ADF können eine 1:1-Kopie aus der lokalen Umgebung in die Cloud durchführen. Beispiel: Table1/ColumnA -> Table2/ColumnA.
prozessausführung status
Zur Unterstützung von Ursachenanalyse- und Datenqualitätsszenarien erfassen wir die Ausführung status der Aufträge in Datenverarbeitungssystemen. Diese Anforderung hat nichts mit dem Ersetzen der Überwachungsfunktionen anderer Datenverarbeitungssysteme zu tun, und auch nicht das Ziel besteht darin, sie zu ersetzen.
Zusammenfassung
Die Herkunft ist ein wichtiges Feature des Microsoft Purview Data Catalog, um Qualitäts-, Vertrauens- und Überwachungsszenarien zu unterstützen. Das Ziel eines Datenkatalogs besteht darin, ein stabiles Framework zu erstellen, in dem alle Datensysteme in Ihrer Umgebung eine natürliche Verbindung herstellen und die Datenherkunft melden können. Sobald die Metadaten verfügbar sind, kann der Datenkatalog die von Datensystemen bereitgestellten Metadaten zusammenführen, um Data Governance-Anwendungsfälle zu ermöglichen.
In diesem Schulungsmodul lernen Sie, wie Sie mit Microsoft Purview und CluedIn ein komplettes Stammdatenmanagement- und Data Governance-System aufbauen können. Dies umfasst die Entwicklung von Strategien für Golden Records, Deduplizierung, Datenherkunft und Datenqualität.
Zeigen Sie Ihre Kenntnisse von allgemeinen Datentechnikaufgaben zum Implementieren und Verwalten von Datentechnikworkloads in Microsoft Azure unter Verwendung verschiedener Azure-Dienste.