Freigeben über


Datenverwaltung mit Azure Databricks

Diese Seite bietet eine Übersicht über das Steuern von Daten mithilfe des Unity-Katalogs in Azure Databricks.

Hinweis

Diese Seite konzentriert sich auf die Governance von Daten. Verwandte Sicherheitsthemen, z. B. folgendes, werden in Sicherheit und Compliance behandelt:

  • Authentifizierung und Zugriffssteuerung
  • Netzwerkkonfiguration
  • Datensicherheit und -verschlüsselung
  • Datenschutz und Compliance

Was ist Unity Catalog?

Unity Catalog ist ein zentralisierter Datenkatalog, der eine differenzierte Zugriffssteuerung für tabellarische und unstrukturierte Daten in mehreren Formaten auf mehreren Plattformen sowie governance von KI-Ressourcen wie Machine Learning-Modellen bietet. Sie enthält auch die Tools, mit denen Sie Daten ermitteln, die Nutzung nachverfolgen, Die Linien erfassen und die Datenqualität überwachen können.

Unity Catalog ist Open Source und unterstützt mehrere Plattformen. Es ist tief in Azure Databricks integriert.

Siehe Was ist Unity Catalog?.

Das Datengovernancemodell des Unity-Katalogs

Data-Governance mit Unity Catalog bietet Folgendes:

  • Datenvereinheitlichung: eine einheitliche Ansicht aller Daten und KI-Ressourcen plattformübergreifend, wodurch Duplikation und Ausbreitung reduziert werden.
  • Datenzugriffskontrolle: Tools, um sicherzustellen, dass Daten leicht zugänglich sind, aber nur für die richtigen Benutzer.
  • Datenerfindbarkeit: Tools, mit denen Sie die benötigten Daten leicht finden können.
  • Datenqualität: Tools, um sicherzustellen, dass Daten im gesamten Lebenszyklus korrekt, vollständig, konsistent und sicher sind.
  • Zusammenarbeit und Freigabe von Daten: die Möglichkeit, Daten sicher nicht nur innerhalb Ihrer Organisation, sondern über Organisations- und Plattformgrenzen hinweg freizugeben.
  • Überwachung: Tools, die erfassen, wer die Daten verwendet und wie.

Auf dieser Seite wird erläutert, wie Ihre Organisation diese Anforderungen mithilfe des Unity-Katalogs in Azure Databricks erfüllen kann.

Datenzugriffskontrolle

Um sicherzustellen, dass Benutzer nur auf die gewünschten Daten zugreifen, bietet Unity Catalog ein hierarchisches Berechtigungsmodell, mit dem Sie Benutzern, Gruppen und Dienstprinzipalen Zugriff auf Daten und KI-Ressourcen von der Kontoebene auf Tabellenzeilen und -spalten gewähren können. Sie können den Zugriff auf Objekte steuern, die in dediziertem Unity-Katalogspeicher gespeichert sind oder auf anderen Plattformen gespeichert sind, z. B. Cloudspeicher oder Datenbanksysteme: Der Schlüssel besteht darin, dass Unity-Katalog Ihren Benutzern potenziellen Zugriff auf alle Ihre Daten gewährt, unabhängig davon, wo es sich in Azure Databricks befindet, und dass Unity Catalog ihren Zugriff steuert und die Datennutzung nachverfolgt.

Aufgabe BESCHREIBUNG
Berechtigungen verwalten Erfahren Sie mehr über die sicherungsfähigen Objekte, die Unity Catalog verwaltet, und wie Sie den Zugriff darauf steuern.
Verwalten der attributbasierten Zugriffssteuerung (ABAC) Erfahren Sie, wie Sie den Zugriff auf Daten mithilfe von ABAC im Unity-Katalog steuern.
Verwalten von Identitäten Erfahren Sie, wie Sie Identitäten im Kontext des Unity-Katalogs verwalten.
Feinkörnige Zugriffssteuerung Erfahren Sie, wie Sie den Zugriff auf Tabellendaten mithilfe von Zeilenfiltern und Spaltenmasken steuern.
Verwalten des Zugriffs auf externe Speicher- und Datenplattformen Erfahren Sie, wie Sie den Zugriff auf Cloudspeicher, externe Datenplattformen und externe Nicht-Datendienste mithilfe des Unity-Katalogs steuern.
Verwalten des Zugriffs von externen Plattformen Erfahren Sie, wie Unity Catalog den Zugriff auf Ihre Daten von externen Plattformen verwalten kann, die die Apache Iceberg- oder Open-Source-Unity-Katalog-APIs verwenden.

Datenerfindbarkeit

Azure Databricks und Unity Catalog bieten die folgenden Tools, mit denen Benutzer die benötigten Daten finden können:

Merkmal BESCHREIBUNG
Katalog-Explorer Durchsuchen und Suchen nach Daten und KI-Ressourcen mithilfe von Objektnamen und Metadaten wie Kommentaren und Tags.
Katalogbrowser Suchen Sie Daten und KI-Ressourcen mithilfe von Browsern, die in das Notizbuch und sql-Abfrage-Editor integriert sind. Weitere Informationen finden Sie unter Navigieren im Databricks-Notizbuch und Datei-Editor und Schreiben von Abfragen und Untersuchen von Daten im neuen SQL-Editor.
KI-generierte Kommentare Generieren Sie automatisch Dokumentationen von Daten und KI-Ressourcen, um die Auffindbarkeit zu unterstützen.
Tabellenübersicht Verwenden Sie eine in den Katalog-Explorer integrierte Benutzeroberfläche, um die am häufigsten verwendeten Benutzer und Abfragen einer beliebigen Tabelle im Unity-Katalog anzuzeigen.
Datenherkunft Erfassen und visualisieren Sie, wie Daten durch Ihre Organisation fließen.
Für die Herkunft von Funktionen und Modellen siehe Feature Governance und Herkunft.
Entitätsbeziehungsdiagramme (ERD) Zeigt Beziehungen für Tabellen an, für die Fremdschlüssel definiert sind.

Siehe auch Entdecken von Daten.

Datenqualitätsüberwachung

Tools zur Sicherstellung der Datenqualität und Datenintegrität sind tief in Delta Lake, Apache Spark und Azure Databricks integriert. In der gesamten Azure Databricks-Dokumentation erfahren Sie mehr über sie.

Der Unity-Katalog fügt Folgendes hinzu:

Merkmal BESCHREIBUNG
Lakehouse Monitoring Ein Datenüberwachungstool, mit dem die statistischen Eigenschaften und die Qualität der Daten in allen Tabellen in Ihrem Konto erfasst werden. Sie können das Feature auch verwenden, um die Leistung von Machine Learning-Modellen und Modellbereitstellungsendpunkten nachzuverfolgen, indem Sie Rückschlusstabellen überwachen, die Modellausgaben und Vorhersagen enthalten.
Zertifizierte und veraltete Systemtags Beschriften Sie sicherungsfähige Objekte, z. B. Kataloge, Schemas und Tabellen, mit Indikatoren für die Datenqualität oder den Lebenszyklusstatus. Diese Systemtags helfen Organisationen dabei, Governance zu erzwingen, die Datenerfindbarkeit zu verbessern und das Vertrauen in Analyse- und KI-Anwendungen zu erhöhen.

Zusammenarbeit und Freigabe von Daten

Im Unity-Katalog können Ihre Benutzer an den gleichen Daten in allen Arbeitsbereichen Ihres Kontos in derselben Region zusammenarbeiten. Wenn Sie über Arbeitsbereiche, Regionen, Organisationen und Plattformen hinweg zusammenarbeiten möchten, bietet Unity Catalog die Grundlage für die folgenden Tools zur gemeinsamen Nutzung.

Merkmal BESCHREIBUNG
Delta-Freigabe Eine sichere Datenfreigabeplattform, mit der Sie Daten und KI-Ressourcen in Azure Databricks für Benutzer außerhalb Ihrer Organisation freigeben können, unabhängig davon, ob diese Benutzer Databricks verwenden oder nicht.
Reinräume Eine vom Databricks verwaltete Umgebung, in der mehrere Teilnehmer auf Databricks- und Nicht-Databricks-Plattformen an Projekten zusammenarbeiten können, ohne zugrunde liegende Daten miteinander zu teilen.
Databricks-Marketplace Ein offenes Forum für den Austausch von Daten und KI-Produkten. Außerdem wird ein privater Datenaustausch bereitgestellt.

Rechnungsprüfung

Überwachungsprotokolle erfassen detaillierte Details darüber, wer auf ein bestimmtes Dataset zugegriffen hat, und die aktionen, die sie ausgeführt haben. Unity Catalog fügt Systemtabellen hinzu, die einfachste Möglichkeit, auf die Überwachungsprotokolle Ihres Kontos zuzugreifen und sie abzufragen.

Siehe Diagnoseprotokollreferenz und Überwachen der Kontoaktivität mit Systemtabellen.

Veraltete Azure Databricks Data-Governance Tools

Azure Databricks bietet auch diese Legacy-Governance-Features. Databricks empfiehlt, stattdessen Unity Catalog zu verwenden.

Merkmal BESCHREIBUNG
Zugriffssteuerung für Tabellen Ein veraltetes Data-Governance-Modell, mit dem Sie programmgesteuert Zugriff auf Objekte gewähren und widerrufen können, die vom integrierten Hive-Metaspeicher Ihres Arbeitsbereichs kontrolliert werden.
Azure Data Lake Storage Anmeldeinformationen durchreichen Eine veraltete Data-Governance Funktion, die Ihnen die Möglichkeit bietet, sich automatisch von Azure Databricks Clustern aus bei Azure Storage zu authentifizieren, indem Sie dieselbe Microsoft Entra ID Identität verwenden, mit der Sie sich bei Azure Databricks anmelden.

Nächste Schritte