Was ist Unity Catalog?

In diesem Artikel wird Unity Catalog vorgestellt, eine einheitliche Governancelösung für Daten und KI-Ressourcen in Databricks Lakehouse.

Übersicht über Unity Catalog

Unity Catalog bietet zentralisierte Zugriffssteuerungs-, Überwachungs-, Herkunfts- und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen.

Unity Catalog diagram

Wichtige Features von Unity Catalog:

  • Einmaliges Definieren, allgegenwärtiger Schutz: Unity Catalog bietet eine einzige Anlaufstelle zum Verwalten von Datenzugriffsrichtlinien, die für alle Arbeitsbereiche gelten.
  • Standardkonformes Sicherheitsmodell: Das Sicherheitsmodell von Unity Catalog basiert auf der Standardversion von ANSI-SQL und ermöglicht es Administratoren, mit vertrauter Syntax Berechtigungen auf Katalog-, Datenbank- (auch Schema genannt), Tabellen- und Sichtebene in ihrem bestehenden Data Lake zu gewähren.
  • Integrierte Überwachung und Herkunft: Unity Catalog erfasst automatisch Überwachungsprotokolle auf Benutzerebene, in denen Zugriffe auf Ihre Daten erfasst werden. Unity Catalog erfasst auch Herkunftsdaten, die nachverfolgen, wie Datenressourcen über alle Sprachen hinweg erstellt und verwendet werden.
  • Datenermittlung: Mit Unity Catalog können Sie Datenressourcen markieren und dokumentieren. Darüber hinaus bietet Unity Catalog eine Suchschnittstelle, die Datenconsumer beim Finden von Daten unterstützt.
  • Systemtabellen (Public Preview): Mit Unity Catalog können Sie ganz einfach auf die Betriebsdaten Ihres Kontos zugreifen und diese abfragen, einschließlich Überwachungsprotokolle, abrechenbarer Verbrauch und Herkunft.

Wie steuert Unity Catalog den Zugriff auf Daten und KI-Ressourcen im Cloudobjektspeicher?

Databricks empfiehlt die Konfiguration des gesamten Zugriffs auf Cloudobjektspeicher mithilfe von Unity Catalog. Weitere Informationen finden Sie unter Herstellen von Verbindungen mit Cloudobjektspeicher mithilfe von Unity Catalog.

Unity Catalog führt die folgenden Konzepte zum Verwalten von Beziehungen zwischen Daten in Azure Databricks und im Cloudobjektspeicher ein:

Hinweis

Lakehouse Federation bietet Integrationen in Daten in anderen externen Systemen. Diese Objekte werden nicht vom Cloudobjektspeicher unterstützt.

Objektmodell von Unity Catalog

In Unity Catalog verläuft die Hierarchie der primären Datenobjekte vom Metastore zu Tabelle oder Volume:

  • Metastore: Der Container der obersten Ebene für Metadaten. Jeder Metastore macht einen Namespace mit drei Ebenen (catalog.schema.table) verfügbar, der Ihre Daten organisiert.
  • Katalog: Die erste Ebene der Objekthierarchie, die zum Organisieren Ihrer Datenressourcen verwendet wird
  • Schema: Schemas werden auch als Datenbanken bezeichnet. Sie stellen die zweite Ebene der Objekthierarchie dar und enthalten Tabellen und Sichten.
  • Tabellen, Sichten und Volumes: Auf der niedrigsten Ebene in der Datenobjekthierarchie befinden sich Tabellen, Sichten und Volumes. Datenträger bieten Governance für nicht tabellarische Daten.
  • Modelle: Registrierte Modelle sind zwar streng genommen keine Datenressourcen, können aber ebenfalls in Unity Catalog verwaltet werden und sich auf der niedrigsten Ebene in der Objekthierarchie befinden.

Unity Catalog object model diagram

Dies ist eine vereinfachte Ansicht von sicherungsfähigen Unity Catalog-Objekten. Weitere Informationen finden Sie unter Sicherungsfähige Objekte in Unity Catalog.

Sie verweisen auf alle Daten in Unity Catalog mit einem Namespace auf drei Ebenen: catalog.schema.asset. Bei asset kann es sich um eine Tabelle, eine Sicht, ein Volume oder ein Modell handeln.

Metastores

Ein Metastore ist der Objektcontainer der obersten Ebene in Unity Catalog. Es registriert Metadaten zu Daten- und KI-Ressourcen und die Berechtigungen, die den Zugriff auf sie steuern. Azure Databricks-Kontoadministratoren sollten für jede Region, in der sie tätig sind, einen Metastore erstellen und den Azure Databricks-Workspaces in derselben Region zuweisen. Damit ein Arbeitsbereich Unity Catalog verwendet, muss ein Unity Catalog-Metastore angefügt sein.

Ein Metastore kann optional mit einem verwalteten Speicherort in einem Azure Data Lake Storage Gen2-Container oder Cloudflare R2-Bucket in Ihrem Cloudspeicherkonto konfiguriert werden. Weitere Informationen finden Sie unter Verwalteter Speicher.

Hinweis

Dieser Metastore unterscheidet sich vom Hive-Metastore, der in Azure Databricks-Arbeitsbereichen enthalten ist, die nicht für Unity Catalog aktiviert wurden. Wenn Ihr Arbeitsbereich einen Legacy-Hive-Metastore enthält, sind die Daten in diesem Metastore zusammen mit den in Unity Catalog definierten Daten in einem Katalog mit dem Namen „hive_metastore“ verfügbar. Beachten Sie, dass der Katalog „hive_metastore“ nicht von Unity Catalog verwaltet wird und nicht von demselben Features wie Kataloge profitiert, die in Unity Catalog definiert sind.

Weitere Informationen finden Sie unter Erstellen eines Unity Catalog-Metastores.

Kataloge

Ein Katalog ist die erste der drei Ebenen im Namespace von Unity Catalog. Er wird verwendet, um Ihre Datenressourcen zu organisieren. Benutzer*innen können alle Kataloge anzeigen, für die Ihnen die USE CATALOGDatenberechtigung zugewiesen wurde.

Je nachdem, wie Ihr Arbeitsbereich für Unity-Katalog erstellt und aktiviert wurde, verfügen Ihre Benutzer möglicherweise über Standardberechtigungen für automatisch bereitgestellte Kataloge, einschließlich des main -Katalogs oder des Arbeitsbereichkatalogs (<workspace-name>). Weitere Informationen finden Sie unter Standardbenutzerberechtigungen.

Weitere Informationen finden Sie unter Erstellen und Verwalten von Katalogen.

Schemas

Ein Schema (auch als Datenbank bezeichnet) ist die zweite der drei Ebenen im Namespace von Unity Catalog. Ein Schema wird zum Organisieren von Tabellen und Sichten verwendet. Benutzer können alle Schemas anzeigen, für die ihnen die Berechtigung „USE SCHEMA“ zusammen mit der Berechtigung „USE CATALOG“ im übergeordneten Katalog des Schemas zugewiesen wurde. Um auf eine Tabelle oder Ansicht in einem Schema zuzugreifen oder sie auflisten zu können, müssen Benutzer auch über die Berechtigung „SELECT“ für die Tabelle oder Ansicht verfügen.

Wenn Ihr Arbeitsbereich manuell für den Unity Catalog aktiviert wurde, enthält er ein Standardschema mit dem Namen default im main -Katalog, das für alle Benutzer*innen in Ihrem Arbeitsbereich zugänglich ist. Wenn Ihr Arbeitsbereich für Unity-Katalog automatisch aktiviert wurde, enthält Ihr Arbeitsbereich ein Schema mit dem Namen default im <workspace-name> -Katalog, das für alle Benutzer*innen in Ihrem Arbeitsbereich zugänglich ist.

Weitere Informationen finden Sie unter Erstellen und Verwalten von Schemas (Datenbanken).

Tabellen

Tabellen befinden sich in der dritten Ebene des Namespace mit drei Ebenen von Unity Catalog. Sie enthalten Datenzeilen. Zum Erstellen einer Tabelle benötigen Benutzer die Berechtigungen CREATE und USE SCHEMA für das Schema und die Berechtigung USE CATALOG für den übergeordneten Katalog. Zum Abfragen einer Tabelle benötigen Benutzer die Berechtigung „SELECT“ für die Tabelle im übergeordneten Schema. die Berechtigung „USE SCHEMA“ für ihr übergeordnete Schema und die Berechtigung „USE CATALOG“ für den übergeordneten Katalog.

Eine Tabelle kann verwaltet oder extern sein.

Verwaltete Tabellen

Beim Erstellen von Tabellen in Unity Catalog werden standardmäßig verwaltete Tabellen verwendet. Unity Catalog verwaltet den Lebenszyklus und das Dateilayout für diese Tabellen. Sie sollten keine Tools außerhalb von Azure Databricks verwenden, um Dateien in diesen Tabellen direkt zu bearbeiten. Verwaltete Tabellen verwenden immer das Delta-Tabellenformat.

Verwaltete Tabellen werden bei Arbeitsbereichen, die manuell für Unity Catalog aktiviert wurden, am Stammspeicherort gespeichert, den Sie beim Erstellen des Metastores konfiguriert haben. Sie können optional Speicherorte für verwaltete Tabellen auf Katalog- oder Schemaebene angeben und dabei den Stammspeicherort überschreiben.

Bei Arbeitsbereichen, die automatisch für Unity Catalog aktiviert wurden, ist der Metastore-Stammspeicherort optional, und verwaltete Tabellen werden in der Regel auf Katalog- oder Schemaebene gespeichert.

Wenn eine verwaltete Tabelle gelöscht wird, werden die zugrunde liegenden Daten innerhalb von 30 Tagen aus Ihrem Cloudmandanten gelöscht.

Weitere Informationen finden Sie unter Verwaltete Tabellen.

Externe Tabellen

Externe Tabellen sind Tabellen, deren Datenlebenszyklus und Dateilayout nicht von Unity Catalog verwaltet werden. Verwenden Sie externe Tabellen, um große Mengen vorhandener Daten in Unity Catalog zu registrieren, oder wenn Sie direkten Zugriff auf die Daten mithilfe von Tools außerhalb von Azure Databricks-Clustern oder Databricks SQL-Warehouses benötigen.

Wenn Sie eine externe Tabelle löschen, löscht Unity Catalog die zugrunde liegenden Daten nicht. Sie können Berechtigungen für externe Tabellen auf die gleiche Weise verwalten wie bei verwalteten Tabellen und externe Tabellen genauso in Abfragen verwenden wie verwaltete Tabellen.

Für externe Tabellen können die folgenden Dateiformate verwendet werden:

  • DELTA
  • CSV
  • JSON
  • AVRO
  • PARQUET
  • ORC
  • TEXT

Weitere Informationen finden Sie unter Externe Tabellen.

Sichten

Eine Sicht ist ein schreibgeschütztes Objekt, das aus Tabellen und Sichten in einem Metastore besteht. Sie befindet sich in der dritten Ebene des Namespace mit drei Ebenen von Unity Catalog. Eine Sicht kann aus Tabellen und anderen Sichten in mehreren Schemas oder Katalogen erstellt werden. Sie können dynamische Sichten erstellen, um Berechtigungen auf Zeilen- und Spaltenebene zu aktivieren.

Weitere Informationen finden Sie unter Erstellen einer dynamischen Ansicht.

Volumes

Wichtig

Dieses Feature befindet sich in der Public Preview.

Volumes befinden sich in der dritten Ebene des drei Ebenen umfassenden Namespace von Unity Catalog. Volumes befinden sich auf der gleichen Ebene wie Tabellen, Sichten und andere Objekte, die unter einem Schema in Unity Catalog organisiert sind.

Volumes enthalten Verzeichnisse und Dateien für Daten, die in einem beliebigen Format gespeichert werden können. Volumes bieten nicht tabellarischen Zugriff auf Daten. Das bedeutet, dass Dateien in Volumes nicht als Tabellen registriert werden können.

  • Zum Erstellen eines Volumes benötigen Benutzer*innen die Berechtigungen CREATE VOLUME und USE SCHEMA für das Schema und die Berechtigung USE CATALOG für den übergeordneten Katalog.
  • Zum Lesen von Dateien und Verzeichnissen, die in einem Volume gespeichert werden, benötigen Benutzer*innen die Berechtigung READ VOLUME, die Berechtigung USE SCHEMA für ihr übergeordnete Schema und die Berechtigung USE CATALOG für den übergeordneten Katalog.
  • Zum Hinzufügen, Entfernen und Ändern von Dateien und Verzeichnissen, die in einem Volume gespeichert werden, benötigen Benutzer*innen die Berechtigung WRITE VOLUME, die Berechtigung USE SCHEMA für ihr übergeordnete Schema und die Berechtigung USE CATALOG für den übergeordneten Katalog.

Eine Tabelle kann verwaltet oder extern sein.

Hinweis

Wenn Sie ein Volume definieren, wird der Cloud-URI-Zugriff auf Daten im Volumepfad durch die Berechtigungen des Volumes gesteuert.

Verwaltete Volumes

Verwaltete Volumes stellen eine bequeme Lösung dar, wenn Sie einen verwalteten Speicherort für die Arbeit mit nicht tabellarischen Dateien bereitstellen möchten.

Verwaltete Volumes speichern Dateien im Unity Catalog-Standardspeicherort für das Schema, in dem sie enthalten sind. Verwaltete Volumes werden bei Arbeitsbereichen, die manuell für Unity Catalog aktiviert wurden, am Stammspeicherort gespeichert, den Sie beim Erstellen des Metastores konfiguriert haben. Sie können optional Speicherorte für verwaltete Volumes auf Katalog- oder Schemaebene angeben und dabei den Stammspeicherort überschreiben. Bei Arbeitsbereichen, die automatisch für Unity Catalog aktiviert wurden, ist der Metastore-Stammspeicherort optional, und verwaltete Volumes werden in der Regel auf Katalog- oder Schemaebene gespeichert.

Die folgende Rangfolge bestimmt, welcher Speicherort für ein verwaltetes Volume verwendet wird:

  • Schemaspeicherort
  • Katalogspeicherort
  • Stammspeicherort für Unity Catalog-Metastore

Wenn Sie ein verwaltetes Volume löschen, werden die auf diesem Volume gespeicherten Dateien auch innerhalb von 30 Tagen aus Ihrem Cloudmandanten gelöscht.

Weitere Informationen finden Sie unter Was ist ein verwaltetes Volume?.

Externe Volumes

Ein externes Volume wird an einem externen Speicherort von Unity Catalog registriert und bietet Zugriff auf vorhandene Dateien im Cloudspeicher, ohne dass eine Datenmigration erforderlich ist. Benutzer*innen müssen über die Berechtigung CREATE EXTERNAL VOLUME für den externen Speicherort verfügen, um ein externes Volume erstellen zu können.

Externe Volumes unterstützen Szenarien, in denen Dateien von anderen Systemen erstellt und für den Zugriff von Azure Databricks mit Objektspeicher bereitgestellt werden oder in denen Tools außerhalb von Azure Databricks direkten Dateizugriff benötigen.

Unity Catalog verwaltet weder den Lebenszyklus noch das Layout der Dateien auf externen Volumes. Wenn Sie ein externes Volume löschen, löscht Unity Catalog die zugrunde liegenden Daten nicht.

Weitere Informationen finden Sie unter Was ist ein externes Volume?.

Modelle

Tabellen befinden sich in der dritten Ebene des Namespaces mit drei Ebenen von Unity Catalog. In diesem Kontext bezieht sich "Model" auf ein Machine Learning-Modell, das in der MLflow-Modellregistrierung registriert ist. Um ein Modell in Unity Catalog zu erstellen, müssen Benutzer über die CREATE MODEL Berechtigung für den Katalog oder das Schema verfügen. Der Benutzer muss auch über die USE CATALOG Berechtigung im übergeordneten Katalog und USE SCHEMAdie Berechtigung im übergeordneten Schema verfügen.

Verwalteter Speicher

Sie können verwaltete Tabellen und verwaltete Datenträger auf einer der folgenden Ebenen in der Unity-Catalog-Objekthierarchie speichern: Metastore, Katalog oder Schema. Speicher auf niedrigeren Ebenen in der Hierarchie überschreiben Speicher, die auf höheren Ebenen definiert sind.

Wenn ein Kontoadministrator manuell einen Metastore erstellt, hat er die Möglichkeit, einen Speicherort in einem Azure Data Lake Storage Gen2-Container oder Cloudflare R2-Bucket in Ihrem Cloudspeicherkonto als Metastorespeicher für verwaltete Tabellen und Volumes zuzuweisen. Wenn ein verwalteter Speicherort auf Metastoreebene zugewiesen wurde, sind verwaltete Speicherorte auf Katalog- und Schemaebene optional. Das heißt, der Speicher auf Metastoreebene ist optional, und Databricks empfiehlt, verwalteten Speicher auf Katalogebene für die logische Datenisolation zuzuweisen. Siehe Bausteine für Daten-Governance und Datenisolierung.

Wichtig

Wenn Ihr Arbeitsbereich automatisch für Unity Catalog aktiviert wurde, wurde der Unity-Katalog-Metastore ohne verwalteten Speicher auf Metastore-Ebene erstellt. Sie können den Speicher auf Metastoreebene hinzufügen, aber Databricks empfiehlt, verwalteten Speicher auf Katalog- und Schemaebene zuzuweisen. Hilfe bei der Entscheidung, ob Sie Speicher auf Metastoreebene benötigen, finden Sie unter (Optional) Erstellen von Speicher auf Metastoreebene und Daten werden physisch im Speicher getrennt.

Verwalteter Speicher verfügt über die folgenden Eigenschaften:

  • Verwaltete Tabellen und verwaltete Volumes speichern Daten und Metadatendateien im verwalteten Speicher.
  • Verwaltete Speicherorte können nicht mit externen Tabellen oder externen Volumes überlappen.

In der folgenden Tabelle wird beschrieben, wie verwalteter Speicher deklariert und Unity Catalog-Objekten zugeordnet wird:

Zugeordnetes Unity Catalog-Objekt Festlegung Beziehung zu externen Speicherorten
Metastore Vom Kontoadministrator während der Metastore-Erstellung konfiguriert oder nach der Metastore-Erstellung hinzugefügt, wenn beim Erstellen kein Speicher angegeben wurde. Kann externe Speicherorte nicht überlappen.
Katalog Wird während der Katalogerstellung mithilfe des Schlüsselworts MANAGED LOCATION angegeben. Muss sich an einem externen Speicherort befinden.
Schema Wird während der Schemaerstellung mithilfe des Schlüsselworts MANAGED LOCATION angegeben. Muss sich an einem externen Speicherort befinden.

Für den verwalteten Speicherort, der zum Speichern von Daten und Metadaten für verwaltete Tabellen und verwaltete Volumes verwendet wird, gelten die folgenden Regeln:

  • Wenn das umfassende Schema über einen verwalteten Speicherort verfügt, werden die Daten am verwalteten Speicherort des Schemas gespeichert.
  • Wenn das umfassende Schema keinen verwalteten Speicherort hat, aber der Katalog über einen verwalteten Speicherort verfügt, werden die Daten im verwalteten Speicherort des Katalogs gespeichert.
  • Verfügen weder das umfassende Schema noch der enthaltende Katalog über einen verwalteten Speicherort, dann werden die Daten im verwalteten Speicherort des Metastore gespeichert.

Speicheranmeldeinformationen und externe Speicherorte

Um den Zugriff auf den zugrunde liegenden Cloudspeicher für externe Tabellen, externe Datenträger und verwalteten Speicher zu verwalten, verwendet Unity Catalog die folgenden Objekttypen:

Weitere Informationen finden Sie unter Herstellen von Verbindungen mit Cloudobjektspeicher mithilfe von Unity Catalog.

Identitätsverwaltung für Unity Catalog

Unity Catalog verwendet die Identitäten im Azure Databricks-Konto, um Benutzer, Dienstprinzipale und Gruppen aufzulösen und Berechtigungen zu erzwingen.

Um Identitäten im Konto zu konfigurieren, befolgen Sie die Anweisungen unter Benutzer, Gruppen und Dienstprinzipale verwalten. Verweisen Sie beim Erstellen von Zugriffssteuerungsrichtlinien in Unity Catalog auf diese Benutzer, Dienstprinzipale und Gruppen.

Unity Catalog-Benutzer*innen, -Dienstprinzipale und -Gruppen müssen außerdem zu Arbeitsbereichen hinzugefügt werden, um auf Unity Catalog-Daten in einem Notebook, eine Databricks-SQL-Abfrage, den Katalog-Explorer oder einen REST-API-Befehl zuzugreifen. Die Zuordnung von Benutzern, Dienstprinzipalen und Gruppen zu Arbeitsbereichen wird als Identitätsverbund bezeichnet.

Alle Arbeitsbereiche, an die ein Unity Catalog-Metastore angefügt ist, sind für den Identitätsverbund aktiviert.

Spezielle Überlegungen zu Gruppen

Alle Gruppen, die bereits im Arbeitsbereich vorhanden sind, werden in der Kontokonsole als Arbeitsbereich (lokal) bezeichnet. Diese lokalen Arbeitsbereichsgruppen können nicht in Unity Catalog verwendet werden, um Zugriffsrichtlinien zu definieren. Sie müssen Gruppen auf Kontoebene verwenden. Wenn auf eine lokale Arbeitsbereichsgruppe in einem Befehl verwiesen wird, gibt dieser Befehl einen Fehler mit dem Hinweis zurück, dass die Gruppe nicht gefunden wurde. Wenn Sie zuvor lokale Arbeitsbereichsgruppen verwendet haben, um den Zugriff auf Notebooks und andere Artefakte zu verwalten, bleiben diese Berechtigungen wirksam.

Weitere Informationen finden Sie unter Verwalten von Gruppen.

Administratorrollen für Unity Catalog

Kontoadministratoren, Metastore-Administratoren und Arbeitsbereichsadministratoren sind an der Verwaltung des Unity Catalog beteiligt:

Siehe Administratorrechte im Unity Catalog.

Datenberechtigungen in Unity Catalog

Die Daten in Unity Catalog sind standardmäßig geschützt. Benutzer*innen können anfangs nicht auf die Daten in einem Metastore zugreifen. Zugriff kann von einem Metastoreadministrator, vom Besitzer eines Objekts oder vom Besitzer des Katalogs oder des Schemas, der bzw. das das Objekt enthält, gewährt werden. Sicherungsobjekte in Unity Catalog sind hierarchisch, und Berechtigungen werden abwärts vererbt.

Sie können Berechtigungen mithilfe des Katalog-Explorers, von SQL-Befehlen oder REST-APIs zuweisen und widerrufen.

Weitere Informationen finden Sie unter Verwalten von Berechtigungen in Unity Catalog.

Unterstützte Rechen- und Clusterzugriffsmodi für Unity Catalog

Unity Catalog wird in Clustern unterstützt, auf denen Databricks Runtime 11.3 LTS oder höher ausgeführt wird. Unity Catalog wird standardmäßig in allen SQL-Warehouse-Computeversionen unterstützt.

Cluster, die in früheren Versionen von Databricks Runtime ausgeführt werden, bieten keine Unterstützung für alle allgemein verfügbaren Features und Funktionen von Unity Catalog.

Um auf Daten in Unity Catalog zuzugreifen, müssen Cluster mit dem richtigen Zugriffsmodus konfiguriert werden. Unity Catalog ist standardmäßig geschützt. Wenn ein Cluster nicht mit einem der Unity Catalog-fähigen Zugriffsmodi (das heißt, „Freigegeben“ oder „Zugewiesen“) konfiguriert ist, kann der Cluster nicht auf Daten in Unity Catalog zugreifen. Weitere Informationen finden Sie unter Zugriffsmodi.

Ausführliche Informationen zu den Änderungen der Unity Catalog-Funktionen in jeder Databricks Runtime-Version finden Sie in den Versionshinweisen.

Einschränkungen für Unity Catalog variieren je nach Zugriffsmodus und Azure Databricks Runtime-Version. Siehe Einschränkungen des Computezugriffsmodus für Unity Catalog.

Datenherkunft für Unity Catalog

Sie können Unity Catalog verwenden, um die Datenherkunft von Runtime-Daten in jeder Sprache über Abfragen hinweg zu erfassen, die auf einem Azure Databricks-Cluster oder einem SQL-Warehouse ausgeführt werden. Die Linie wird bis zur Spaltenebene erfasst und enthält Notebooks, Workflows und Dashboards im Zusammenhang mit der Abfrage. Weitere Informationen finden Sie unter Erfassen und Anzeigen der Datenherkunft mit Unity Catalog.

Lakehouse Federation und Unity Catalog

Lakehouse Federation ist die Abfrageverbundplattform für Azure Databricks. Der Begriff Abfrageverbund beschreibt eine Sammlung von Features, mit denen Benutzer und Systeme Abfragen für mehrere isolierte Datenquellen ausführen können, ohne alle Daten zu einem einheitlichen System migrieren zu müssen.

Azure Databricks verwendet zum Verwalten des Abfrageverbunds Unity Catalog. Sie verwenden Unity Catalog, um schreibgeschützte Verbindungen mit gängigen externen Datenbanksystemen zu konfigurieren und Fremdkataloge zu erstellen, die externe Datenbanken spiegeln. Die Tools für Datengovernance und Datenherkunft von Unity Catalog stellen sicher, dass der Datenzugriff für alle Verbundabfragen verwaltet und überwacht wird, die von den Benutzern in Ihren Azure Databricks-Arbeitsbereichen durchgeführt werden.

Weitere Informationen finden Sie unter Was ist der Lakehouse-Verbund?.

Wie richte ich Unity Catalog für meine Organisation ein?

Informationen zum Einrichten des Unity Catalog finden Sie unter Einrichten und Verwalten des Unity Catalog.

Unterstützte Regionen

Alle Regionen unterstützen Unity Catalog. Weitere Informationen finden Sie unter Azure Databricks-Regionen.

Unterstützte Datendateiformate

Unity Catalog unterstützt die folgenden Tabellenformate:

Unity Catalog-Einschränkungen

Für Unity Catalog gelten die folgenden Einschränkungen:

Hinweis

Wenn Ihr Cluster in einer niedrigeren Databricks Runtime-Version als Version 11.3 ausgeführt wird, gibt es möglicherweise zusätzliche Einschränkungen, die hier nicht aufgeführt sind. Unity Catalog wird in Databricks Runtime 11.3 LTS oder höher unterstützt.

Die Einschränkungen des Unity Catalog variieren je nach Azure Databricks-Runtime und Zugriffsmodus. Strukturierte Streaming-Workloads weisen zusätzliche Einschränkungen auf der Grundlage der Azure Databricks-Runtime und des Zugriffsmodus auf. Siehe Einschränkungen des Computezugriffsmodus für Unity Catalog.

  • Workloads in diesen Sprachen unterstützen die Verwendung dynamischer Sichten für die Sicherheit auf Zeilen- oder Spaltenebene nicht.

  • In Databricks Runtime 13.1 und höher werden flache Klone unterstützt, um verwaltete Unity Catalog-Tabellen aus vorhandenen verwalteten Unity Catalog-Tabellen zu erstellen. In Databricks Runtime 13.0 und niedriger gibt es keine Unterstützung für flache Klone in Unity Catalog. Siehe Flache Klone für verwaltete Unity Catalog-Tabellen.

  • Bucketing wird für Unity Catalog-Tabellen nicht unterstützt. Wenn Sie Befehle ausführen, die versuchen, eine Buckettabelle in Unity Catalog zu erstellen, wird eine Ausnahme ausgelöst.

  • Das Schreiben in denselben Pfad oder dieselbe Delta-Tabelle von Arbeitsbereichen in mehreren Regionen kann zu einer unzuverlässigen Leistung führen, wenn einige Cluster auf Unity Catalog zugreifen und andere nicht.

  • Benutzerdefinierte Partitionsschemas, die mit Befehlen wie „ALTER TABLE ADD PARTITION“ erstellt wurden, werden für Tabellen in Unity Catalog nicht unterstützt. Unity Catalog kann auf Tabellen zugreifen, die die Partitionierung im Verzeichnisstil verwenden.

  • Der Überschreibmodus für Dataframeschreibvorgänge in Unity Catalog wird nur für Delta-Tabellen unterstützt, nicht für andere Dateiformate. Der Benutzer muss das Recht CREATE für das übergeordnete Schema besitzen und Eigentümer des vorhandenen Objekts sein oder das Recht MODIFY für das Objekt besitzen.

  • In Databricks Runtime 13.2 und höher werden skalare Python UDFs unterstützt. In Databricks Runtime 13.1 und niedriger können Sie keine Python-UDFs verwenden, einschließlich UDAFs, UDTFs und Pandas unter Spark (applyInPandas und mapInPandas).

  • In Databricks Runtime 14.2 und höher werden Skalare UDFs für freigegebene Cluster unterstützt. In Databricks Runtime 14.1 und darunter werden alle Scala UDFs für freigegebene Cluster nicht unterstützt.

  • Zuvor in einem Arbeitsbereich erstellte Gruppen (d. h. Gruppen auf Arbeitsbereichsebene) können nicht in GRANT-Anweisungen von Unity Catalog verwendet werden. Dadurch soll eine konsistente Ansicht von Gruppen sichergestellt werden, die sich über mehrere Arbeitsbereiche erstrecken kann. Um Gruppen in GRANT-Anweisungen zu verwenden, erstellen Sie Ihre Gruppen in der Kontoebene und aktualisieren Sie alle Automatisierungen für die Prinzipal- oder Gruppenverwaltung (z. B. SCIM, Okta- und Microsoft Entra ID-Konnektoren und Terraform (früher Azure Active Directory)), um Kontoendpunkte anstelle von Arbeitsbereichsendpunkten zu referenzieren. Weitere Informationen finden Sie unter Unterschied zwischen Kontogruppen und arbeitsbereichslokalen Gruppen.

  • Standardmäßige Scala-Threadpools werden nicht unterstützt. Verwenden Sie stattdessen die speziellen Threadpools in org.apache.spark.util.ThreadUtils, z. B org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. Die folgenden Threadpools in ThreadUtils werden jedoch nicht unterstützt: ThreadUtils.newForkJoinPool und alle ScheduledExecutorService-Threadpools.

  • Die Überwachungsprotokollierung wird nur für Unity Catalog-Ereignisse auf Arbeitsbereichsebene unterstützt. Ereignisse, die auf Kontoebene ohne Verweis auf einen Arbeitsbereich stattfinden, z. B. das Erstellen eines Metastores, werden nicht protokolliert.

Die folgenden Einschränkungen gelten für alle Objektnamen in Unity Catalog:

  • Objektnamen dürfen nicht mehr als 255 Zeichen enthalten.
  • Die folgenden Sonderzeichen sind nicht zulässig:
    • Punkt (.)
    • Leerzeichen ( )
    • Schrägstrich (/)
    • Alle ASCII-Steuerelementzeichen (00-1F hex)
    • Das DELETE-Zeichen (7F hex)
  • In Unity Catalog werden alle Objektnamen in Kleinbuchstaben gespeichert.
  • Wenn Sie in SQL auf UC-Namen verweisen, müssen Sie Akut-Zeichen als Escapezeichen für Namen verwenden, die Sonderzeichen wie Bindestriche (-) enthalten.

Hinweis

Spaltennamen können Sonderzeichen enthalten. Namen mit Sonderzeichen müssen jedoch in allen SQL-Anweisungen mit Akut-Zeichen als Escapezeichen versehen werden. Unity Catalog behält die Groß- und Kleinschreibung von Spaltennamen bei, bei Abfragen für Unity Catalog-Tabellen wird die Groß-/Kleinschreibung jedoch nicht beachtet.

Für Modelle in Unity Catalog gibt es weitere Einschränkungen. Siehe Einschränkungen der Unity Catalog-Unterstützung.

Ressourcenkontingente

Unity Catalog erzwingt Ressourcenkontingente für alle sicherungsfähigen Objekte. Grenzwerte respektieren die gleiche hierarchische Organisation innerhalb von Unity Catalog. Wenn Sie davon ausgehen, dass Sie diese Ressourcengrenzwerte überschreiten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.

Die folgenden Kontingentwerte sind relativ zum übergeordneten Objekt (oder zum übergeordneten Element der zweiten Ebene) in Unity Catalog ausgedrückt:

Object Parent Wert
table schema 10000
table Metastore 100.000
Volume schema 10000
Funktion schema 10000
registriertes Modell schema 1.000
registriertes Modell Metastore 5000
Modellversion registriertes Modell 10000
Modellversion Metastore 100.000
schema catalog 10000
catalog Metastore 1000
Verbindung Metastore 1000
Speicheranmeldeinformationen Metastore 200
externer Speicherort Metastore 500

Informationen zu Delta Sharing-Grenzwerten finden Sie unter Ressourcenkontingente.