Was ist Azure Data Catalog?
Wichtig
Der Azure-Datenkatalog wurde am 15. Mai 2024 eingestellt.
Verwenden Sie zur Nutzung von Data Catalog-Features den Dienst Microsoft Purview, der einheitliche Data Governance für Ihren gesamten Datenbestand bietet.
Azure Data Catalog ist ein vollständig verwalteter Clouddienst, dessen Benutzer benötigte Datenquellen ermitteln und gefundene Datenquellen verstehen können. Gleichzeitig hilft Data Catalog Organisationen, einen größeren Nutzen aus ihren vorhandenen Investitionen zu erzielen.
Mit Data Catalog kann jeder Benutzer (Analytiker, Datenanalysten und Entwickler) Datenquellen in seiner Datenlandschaft ermitteln, verstehen und nutzen. Data Catalog umfasst ein Crowdsourcing-Modell von Metadaten und Anmerkungen, sodass jeder dazu beitragen kann, Daten auffindbar und nutzbar zu machen. Es handelt sich um einen zentralen Ort für alle Benutzer einer Organisation, an dem sie ihre Kenntnisse beitragen und eine Community sowie eine Datenkultur aufbauen können.
Aufgaben der Ermittlung für Datennutzer
Das Ermitteln der Datenquellen von Unternehmen war bisher ein natürlicher Prozess, der auf „Stammeswissen“ basierte. Unternehmen, die aus ihren Informationsressourcen den größtmöglichen Nutzen ziehen möchten, stellt dieses Konzept vor eine Vielzahl von Herausforderungen:
- Benutzer wissen möglicherweise nur, dass eine Datenquelle vorhanden ist, wenn sie ihnen im Rahmen eines anderen Prozesses begegnet ist. Es gibt keinen zentralen Speicherort, in dem Datenquellen registriert sind.
- Wenn Benutzer nicht wissen, wo sich eine Datenquelle befindet, können sie damit keine Verbindung über eine Clientanwendung herstellen. Um die Daten nutzen zu können, müssen Benutzer die Verbindungszeichenfolge oder den Pfad kennen.
- Wenn Benutzer den Speicherort der Dokumentation einer Datenquelle nicht kennen, können sie die beabsichtigte Verwendung der Daten nicht verstehen. Datenquellen und Dokumentationen befinden sich möglicherweise an mehreren Orten und können auf unterschiedliche Weise genutzt werden.
- Wenn Benutzer Fragen zu einem Informationsobjekt haben, müssen sie den Experten oder das Team suchen, der bzw. das für die Daten verantwortlich ist, und sich offline an diese Personen wenden. Es gibt keine explizite Verbindung zwischen Daten und den Experten für deren Verwendung.
- Ein Benutzer muss den Prozess zum Anfordern des Zugriffs auf die Datenquelle verstehen, da er mit der ermittelten Datenquelle und der zugehörigen Dokumentation allein noch nicht auf die Daten zugreifen kann.
Aufgaben der Ermittlung für Datenproduzenten
Trotz der genannten Hürden für die Nutzer der Daten gelten für Benutzer, die für die Erstellung und Verwaltung von Informationsobjekten verantwortlich sind, besondere Anforderungen:
- Das Erstellen von Anmerkungen zu Datenquellen mit beschreibenden Metadaten ist häufig nutzlos. Clientanwendungen ignorieren in der Regel Beschreibungen, die in der Datenquelle gespeichert sind.
- Das Erstellen der Dokumentation für Datenquellen ist häufig nutzlos. Die Dokumentation muss stets mit den Datenquellen synchron sein. Wirkt eine Dokumentation veraltet, verlieren die Benutzerinnen und Benutzer möglicherweise das Vertrauen.
- Das Erstellen und Verwalten der Dokumentation für eine Datenquelle ist komplex und zeitaufwendig. Dies gilt mitunter noch stärker für die Aufgabe, die Dokumentation für alle Personen, die die Datenquelle verwenden, leicht zugänglich zu machen.
- Eine beständige Herausforderung besteht darin, den Zugriff auf die Datenquelle zu beschränken und sicherzustellen, dass die Datennutzer wissen, wie sie den Zugriff anfordern.
Zusammen stellen diese Probleme eine erhebliche Hürde für Unternehmen dar, die die Nutzung und das Verständnis der Unternehmensdaten fördern möchten.
Hilfe von Azure Data Catalog
Data Catalog ist für die Lösung dieser Probleme ausgelegt und hilft Unternehmen dabei, mit den vorhandenen Datenressourcen den größten Nutzen zu erzielen. Data Catalog gestaltet Datenquellen einfach ermittelbar und verständlich für die Benutzer, die die verwalteten Daten benötigen.
Data Catalog verfügt über einen cloudbasierten Dienst, unter dem eine Datenquelle registriert werden kann. Die Daten verbleiben an ihrem vorhandenen Speicherort, aber eine Kopie der Metadaten wird Data Catalog hinzugefügt, zusammen mit einem Verweis auf den Speicherort der Datenquelle. Die Metadaten werden außerdem indiziert, damit jede Datenquelle per Suchfunktion einfach ermittelt werden kann und für die Benutzer, die sie ermitteln, verständlich ist.
Nachdem eine Datenquelle registriert wurde, können ihre Metadaten angereichert werden. Die Metadaten können entweder von dem Benutzer hinzugefügt werden, der sie registriert hat, oder von anderen Benutzern im Unternehmen. Alle Benutzer können eine Datenquelle mit Anmerkungen versehen, indem Beschreibungen, Tags oder andere Metadaten bereitgestellt werden, z. B. Dokumentation und Prozesse für das Anfordern des Datenquellenzugriffs. Diese beschreibenden Metadaten sind eine Erweiterung der strukturellen Metadaten (z.B. Spaltennamen und Datentypen), die für die Datenquelle registriert wurden.
Das Ermitteln und Verstehen von Datenquellen und ihrer Nutzung sind der Hauptzweck bei der Registrierung von Quellen. Enterprisebenutzer benötigen möglicherweise Daten für Business Intelligence, Anwendungsentwicklung, Data Science oder andere Aufgaben, für die spezifische Daten erforderlich sind. Sie können über die Ermittlung mit Data Catalog schnell die ihren Anforderungen entsprechenden Daten suchen, die Daten verstehen, damit sie ihre Eignung für den jeweiligen Zweck einordnen können, und die Daten nutzen, indem sie die Datenquelle im Tool ihrer Wahl öffnen.
Gleichzeitig können Benutzer Beiträge zum Katalog leisten, indem sie bereits registrierte Datenquellen mit Tags versehen, dokumentieren und kommentieren. Sie können auch neue Datenquellen registrieren, die dann ermittelt, verstanden, und von der Community der Katalogbenutzer genutzt werden können.
Weitere Informationen zu Data Catalog
Weitere Informationen zu den Funktionen von Data Catalog finden Sie unter:
- Registrieren von Datenquellen
- Ermitteln von Datenquellen
- Hinzufügen von Anmerkungen zu Datenquellen
- So dokumentieren Sie Datenquellen
- Herstellen einer Verbindung mit Datenquellen
- Arbeiten mit großen Datenquellen in Azure Data Catalog
- Verwalten von Datenassets
- Einrichten des Unternehmensglossars
- Häufig gestellte Fragen