Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure Databricks verwendet zwei primäre sicherungsfähige Objekte zum Speichern von Daten und Zugreifen auf Daten.
- Tabellen steuern den Zugriff auf tabellarische Daten.
- Volumes steuern den Zugriff auf nicht tabellarische Daten.
In diesem Artikel wird beschrieben, wie sich diese Datenbankobjekte auf Kataloge, Schemas, Ansichten und andere Datenbankobjekte in Azure Databricks beziehen. Dieser Artikel enthält auch eine allgemeine Einführung in die Funktionsweise von Datenbankobjekten im Kontext der allgemeinen Plattformarchitektur.
Was sind Datenbankobjekte in Azure Databricks?
Datenbankobjekte sind Entitäten, die Ihnen beim Organisieren und Steuern von Daten sowie beim Zugriff auf Daten helfen. Azure Databricks verwendet eine dreistufige Hierarchie zum Organisieren von Datenbankobjekten:
- Katalog: Der Container der obersten Ebene enthält Schemas. Weitere Informationen finden Sie unter Was sind Kataloge in Azure Databricks?.
- Schema oder Datenbank: Enthält Datenobjekte. Weitere Informationen finden Sie unter Was sind Schemas in Azure Databricks?.
- Datenobjekte, die in einem Schema enthalten sein können:
- Volume: Ein logisches Volume nicht tabellarischer Daten in Cloudobjektspeicher. Weitere Informationen finden Sie unter Was sind Unity Catalog-Volumes?.
- Tabelle: eine Sammlung von Daten, die nach Zeilen und Spalten organisiert sind. Siehe Einführung in Azure Databricks-Tabellen.
- Ansicht: eine gespeicherte Abfrage für eine oder mehrere Tabellen. Weitere Informationen finden Sie unter Was ist eine Sicht?.
- Funktion: Gespeicherte Logik, die einen skalaren Wert oder zeilensatz zurückgibt. Siehe benutzerdefinierte Funktionen (USER-Defined Functions, UDFs) im Unity-Katalog.
- Modell: Ein mit MLflow gepacktes Machine Learning-Modell. Weitere Informationen dazu finden Sie unter Verwalten des Lebenszyklus von Modellen in Unity Catalog.
Kataloge werden in einem Metastore registriert, der auf Kontoebene verwaltet wird. Nur Administratoren interagieren direkt mit dem Metastore. Siehe Metastore.
Azure Databricks bietet zusätzliche Ressourcen für das Arbeiten mit Daten, die alle mithilfe von Zugriffssteuerungen auf Arbeitsbereichsebene oder Unity-Katalog, der Databricks-Datengovernance-Lösung geregelt werden können:
- Datenressourcen auf Arbeitsbereichsebene wie Notebooks, Aufträge und Abfragen
- Unity Catalog-Objekte, die gesichert werden können, wie Speicheranmeldeinformationen und Delta Sharing-Aktien, die hauptsächlich den Zugriff auf Speicher oder das sichere Teilen steuern.
Weitere Informationen finden Sie unter Datenbankobjekte im Vergleich zu arbeitsbereichsversicherten Datenressourcen und Unity Catalog sicherungsfähige Anmeldeinformationen und Infrastruktur.
Verwalten des Zugriffs auf Datenbankobjekte mithilfe des Unity-Katalogs
Sie können den Zugriff auf Datenbankobjekte auf jeder Ebene in der Hierarchie gewähren und widerrufen, einschließlich des Metaspeichers selbst. Durch Zugriff auf ein Objekt wird implizit der gleiche Zugriff auf alle untergeordneten Elemente dieses Objekts gewährt, es sei denn, der Zugriff wird widerrufen.
Sie können typische ANSI SQL-Befehle verwenden, um Zugriff auf Objekte in Unity Catalog zu gewähren und zu widerrufen. Sie können den Katalog-Explorer auch für die benutzeroberflächengesteuerte Verwaltung von Datenobjektberechtigungen verwenden.
Weitere Informationen zum Sichern von Objekten im Unity-Katalog finden Sie unter Sicherungsobjekte im Unity-Katalog.
Standardobjektberechtigungen im Unity-Katalog
Je nachdem, wie Ihr Arbeitsbereich für Unity-Katalog erstellt und aktiviert wurde, verfügen Ihre Benutzer möglicherweise über Standardberechtigungen für automatisch bereitgestellte Kataloge, einschließlich des main
Katalogs oder des Arbeitsbereichkatalogs (<workspace-name>
). Weitere Informationen finden Sie unter Standardbenutzerberechtigungen.
Wenn Ihr Arbeitsbereich manuell für den Unity-Katalog aktiviert wurde, enthält er ein Standardschema namens default
im Katalog main
, das für alle Benutzer in Ihrem Arbeitsbereich zugänglich ist. Wenn Ihr Arbeitsbereich für Unity-Katalog automatisch aktiviert wurde und einen <workspace-name>
Katalog enthält, enthält dieser Katalog ein Schema mit dem Namen default
, auf das für alle Benutzer in Ihrem Arbeitsbereich zugegriffen werden kann.
Datenbankobjekte im Vergleich zu sicherungsfähigen Datenressourcen im Arbeitsbereich
Mit Azure Databricks können Sie mehrere Datentechnik-, Analyse-, Machine Learning- und KI (künstliche Intelligenz)-Ressourcen zusammen mit Ihren Datenbankobjekten verwalten. Sie registrieren diese Datenressourcen nicht im Unity-Katalog. Stattdessen werden diese Ressourcen auf Arbeitsbereichsebene mithilfe von Steuerungslisten verwaltet, um die Berechtigungen zu steuern. Zu diesen Datenressourcen zählt Folgendes:
- Notizbücher
- Armaturenbretter
- Aufträge
- Rohrleitungen
- Arbeitsbereichsdateien
- SQL-Abfragen
- Experimente
Die meisten Datenressourcen enthalten Logik, die mit Datenbankobjekten interagiert, um Daten abzufragen, Funktionen zu verwenden, Modelle zu registrieren oder andere allgemeine Aufgaben auszuführen. Weitere Informationen zum Sichern der Datenressourcen in Arbeitsbereichen finden Sie unter Zugriffssteuerungslisten.
Hinweis
Der Zugriff auf Computeressourcen wird über Zugriffssteuerungslisten gesteuert. Sie konfigurieren eine Computeressource mit einem Zugriffsmodus und können zusätzliche Cloudberechtigungen hinzufügen, die bestimmen, wie Benutzer auf Daten zugreifen können. Databricks empfiehlt die Verwendung von Computerichtlinien und das Einschränken von Clustererstellungsberechtigungen als bewährte Methode für die Datengovernance. Weitere Informationen finden Sie unter Zugriffsmodi.
Unity Catalog sichere Anmeldeinformationen und Infrastruktur
Unity Catalog verwaltet den Zugriff auf Cloudobjektspeicher, Datenfreigabe und Abfrageverbund mithilfe sicherungsfähiger Objekte, die auf metastore-Ebene registriert sind. Im Folgenden finden Sie eine kurze Beschreibung dieser sicherungsfähigen Objekte, bei denen es sich nicht um Datenobjekte handelt.
Verbinden des Unity-Katalogs mit Cloudobjektspeicher
Sie müssen Speicheranmeldeinformationen und externe Speicherorte definieren, um einen neuen verwalteten Speicherort zu erstellen oder externe Tabellen oder externe Volumes zu registrieren. Diese sicherungsfähigen Objekte werden im Unity-Katalog registriert:
- Speicheranmeldeinformationen: Langfristige Cloudanmeldeinformationen, die Zugriff auf Cloudspeicher bieten
- Externer Speicherort: Ein Verweis auf einen Cloudobjekt-Speicherpfad, auf den mithilfe der gekoppelten Speicheranmeldeinformationen zugegriffen werden kann
Siehe Verbinden mit Cloudobjektspeicher mithilfe des Unity-Katalogs.
Delta-Sharing
Azure Databricks registriert die folgenden Delta Sharing-Objekte, die im Unity Catalog gesichert werden können.
- Freigeben: Eine schreibgeschützte Sammlung von Tabellen, Volumes und anderen Datenressourcen.
- Anbieter: Die Organisation oder Entität, die Daten gemeinsam verwendet. Im Databricks-to-Databricks-Freigabemodell wird der Anbieter im Unity Catalog-Metastore des Empfängers als eindeutige Entität registriert, die durch seine Metastore-ID identifiziert wird.
- Empfänger: Die Einheit, die Anteile von einem Anbieter erhält. Im Databricks-zu-Databricks-Freigabemodell wird der Empfänger anhand seiner eindeutigen Metastore-ID gegenüber dem Anbieter identifiziert.
Weitere Informationen finden Sie unter Was ist Delta Sharing?.
Lakehouse-Verbund
Lakehouse Federation ermöglicht es Ihnen, ausländische Kataloge zu erstellen, um schreibgeschützten Zugriff auf Daten zu ermöglichen, die sich in anderen Systemen wie PostgreSQL, MySQL und Snowflake befinden. Sie müssen eine Verbindung zum externen System definieren, um Fremdkataloge zu erstellen.
Verbindung: Ein sicherungsfähiges Unity-Katalog-Objekt gibt einen Pfad und Anmeldeinformationen für den Zugriff auf ein externes Datenbanksystem in einem Lakehouse Federation-Szenario an.
Weitere Informationen finden Sie unter Was ist Lakehouse Federation?.
Verwaltete Speicherorte für verwaltete Volumes und Tabellen
Wenn Sie in Azure Databricks Tabellen und Volumes erstellen, haben Sie die Wahl, sie als verwaltet oder extern zu definieren. Unity Catalog verwaltet den Zugriff auf externe Tabellen und Volumes von Azure Databricks, steuert jedoch keine zugrunde liegenden Dateien oder verwaltet den Speicherort dieser Dateien vollständig. Verwaltete Tabellen und Volumes werden dagegen vollständig vom Unity-Katalog verwaltet und an einem verwalteten Speicherort gespeichert, der dem enthaltenden Schema zugeordnet ist. Weitere Informationen finden Sie unter Angeben eines verwalteten Speicherorts in Unity Catalog.
Databricks empfiehlt verwaltete Volumes und verwaltete Tabellen für die meisten Workloads, da sie die Konfiguration, Optimierung und Governance vereinfachen.
Unity-Katalog im Vergleich zum legacy-Hive-Metaspeicher
Databricks empfiehlt die Verwendung des Unity-Katalogs zum Registrieren und Verwalten aller Datenbankobjekte, bietet aber auch Legacyunterstützung für den Hive-Metaspeicher zum Verwalten von Schemas, Tabellen, Ansichten und Funktionen.
Wenn Sie mit Datenbankobjekten interagieren, die mit dem Hive-Metastore registriert wurden, lesen Sie Datenbankobjekte im Legacy-Hive-Metastore.