Erstellen von Datenprofilen von Datenquellen in Azure Data Catalog
Wichtig
Der Azure-Datenkatalog wurde am 15. Mai 2024 eingestellt.
Verwenden Sie zur Nutzung von Data Catalog-Features den Dienst Microsoft Purview, der einheitliche Data Governance für Ihren gesamten Datenbestand bietet.
Einführung
Microsoft Azure Data Catalog ist ein vollständig verwalteter Clouddienst, der als Registrierungs- und Ermittlungssystem für Datenquellen von Unternehmen dient. Mit anderen Worten ist es die Aufgabe von Azure Data Catalog , den Benutzern zu helfen, Datenquellen zu ermitteln, zu verstehen und zu nutzen, und Unternehmen zu helfen, mehr Nutzen aus ihren vorhandenen Daten zu ziehen. Wenn eine Datenquelle in Azure Data Catalog registriert wird, werden ihre Metadaten vom Dienst kopiert und indiziert. Dies ist aber noch nicht alles.
Das Feature für die Datenprofilerstellung in Azure Data Catalog untersucht die Daten der unterstützten Datenquellen in Ihrem Katalog und sammelt Statistiken und Informationen zu diesen Daten. Es ist einfach, ein Profil Ihrer Datenassets einzuschließen. Wählen Sie beim Registrieren eines Datenassets im Tool für die Datenquellenregistrierung die Option Datenprofil einschließen .
Was ist die Datenprofilerstellung?
Bei der Datenprofilerstellung werden die Daten der Datenquelle untersucht, die registriert wird, und es werden Statistiken und Informationen zu diesen Daten gesammelt. Bei der Ermittlung der Datenquellen können Benutzer mit diesen statistischen Daten besser bestimmen, ob die Daten zur Lösung des Geschäftsproblems geeignet sind.
Die Datenprofilerstellung wird für die folgenden Datenquellen unterstützt:
- SQL Server-Tabellen und -Sichten (einschließlich Azure SQL DB und Azure Synapse Analytics)
- Oracle-Tabellen und -Sichten
- Teradata-Tabellen und -Sichten
- Hive-Tabellen
Das Einschließen von Datenprofilen beim Registrieren von Datenassets dient Benutzern als Unterstützung zur Beantwortung von Fragen zu Datenquellen, z.B.:
- Können die Daten verwendet werden, um mein Geschäftsproblem zu lösen?
- Erfüllen die Daten bestimmte Standards oder Muster?
- Welche Anomalien bestehen für die Datenquelle?
- Welche Schwierigkeiten können beim Integrieren der Daten in meine Anwendung unter Umständen auftreten?
Hinweis
Sie können einem Asset auch Dokumentation hinzufügen, um zu beschreiben, wie Daten in eine Anwendung integriert werden können. Weitere Informationen finden Sie unter Dokumentieren von Datenquellen.
Einschließen eines Datenprofils beim Registrieren einer Datenquelle
Es ist einfach, ein Profil Ihrer Datenquelle einzuschließen. Wählen Sie beim Registrieren einer Datenquelle im Tool zum Registrieren von Datenquellen unter Zu registrierende Objekte die Option Datenprofil einschließen aus.
Weitere Informationen zum Registrieren von Datenquellen finden Sie unter Registrieren von Datenquellen und Erste Schritte mit Azure Data Catalog.
Filtern nach Datenassets mit Datenprofilen
Zum Ermitteln von Datenassets, die ein Datenprofil enthalten, können Sie has:tableDataProfiles
oder has:columnsDataProfiles
als einen Ihrer Suchbegriffe einbinden.
Hinweis
Bei Auswahl von Datenprofil einschließen in das Tool zum Registrieren von Datenquellen werden Tabellen- und Profilinformationen auf Spaltenebene einbezogen. Allerdings ermöglicht die Data Catalog-API die Registrierung von Datenassets nur mit einem einzigen Satz von einbezogenen Profilinformationen.
Anzeigen von Datenprofilinformationen
Nachdem Sie eine geeignete Datenquelle mit einem Profil gefunden haben, können Sie die Details zum Datenprofil anzeigen. Wählen Sie zum Anzeigen des Datenprofils ein Datenasset aus, und wählen Sie im Data Catalog-Portalfenster dann die Option Datenprofil .
Für ein Datenprofil in Azure Data Catalog werden Profilinformationen für Tabellen und Spalten angezeigt:
Objektdatenprofil
- Anzahl der Zeilen
- Tabellengröße
- Letzte Aktualisierung des Objekts
Spaltendatenprofil
- Spaltendatentyp
- Anzahl der unterschiedlichen Werte
- Anzahl der Zeilen mit NULL-Werten
- Kleinste, größte, Durchschnitts- und Standardabweichung für Spaltenwerte
Zusammenfassung
Bei der Datenprofilerstellung werden Statistiken und Informationen zu registrierten Datenassets bereitgestellt, damit Benutzer die Eignung der Daten zum Lösen von Geschäftsproblemen bestimmen können. Wenn Datenquellen zusätzlich mit Anmerkungen versehen und dokumentiert werden, erhalten Benutzer mit Datenprofilen ein tieferes Verständnis Ihrer Daten.