Herstellen einer Verbindung mit Cloudobjektspeichern mithilfe von Unity Catalog

In diesem Artikel finden Sie eine Übersicht über die Konfigurationen der Cloudspeicherverbindung, die für die Arbeit mit Daten mithilfe des Unity-Katalogs erforderlich sind.

Databricks empfiehlt die Verwendung von Unity Catalog, um den Zugriff auf alle im Cloudobjektspeicher gespeicherten Daten zu konfigurieren. Unity Catalog bietet eine Reihe von Tools zum Konfigurieren sicherer Verbindungen mit dem Cloudobjektspeicher. Diese Verbindungen ermöglichen den Zugriff, um die folgenden Aktionen auszuführen:

  • Erfassen von Rohdaten in einem Lakehouse
  • Erstellen und Lesen verwalteter Tabellen im sicheren Cloudspeicher
  • Registrieren oder Erstellen externer Tabellen, die Tabellendaten enthalten
  • Lesen und Schreiben unstrukturierter Daten

Warnung

Gewähren Sie Endbenutzer*innen keinen Zugriff auf verwaltete Unity Catalog-Tabellen oder Unity Catalog-Volumes auf Speicherebene. Dies gefährdet die Datensicherheit und Governance.

Wenn Benutzern direkter Zugriff auf den externen Standortspeicher in Azure Data Lake Storage Gen2 gewährt oder überwacht wird, werden keine Berechtigungen berücksichtigt, die vom Unity-Katalog verwaltet werden. Durch den direkten Zugriff werden Überwachung, Linien und andere Sicherheits- und Überwachungsfeatures des Unity-Katalogs umgangen, einschließlich Zugriffssteuerung und Berechtigungen. Sie sind für die Verwaltung des direkten Speicherzugriffs über Azure Data Lake Storage Gen2 verantwortlich und stellen sicher, dass Benutzer über Fabric über die entsprechenden Berechtigungen verfügen.

Vermeiden Sie alle Szenarien, die direkten Schreibzugriff auf Speicherebene für Buckets gewähren, in denen von Databricks verwaltete Tabellen gespeichert werden. Das Ändern, Löschen oder Entwickeln von Objekten direkt über den Speicher, der ursprünglich vom Unity-Katalog verwaltet wurde, kann zu einer Datenbeschädigung führen.

Hinweis

Wenn Ihr Arbeitsbereich vor dem 9. November 2023 erstellt wurde, ist er möglicherweise nicht für Unity Catalog aktiviert. Ein Kontoadministrator oder eine Kontoadministratorin muss Unity Catalog für Ihren Arbeitsbereich aktivieren. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.

Wie verbindet Unity Catalog den Objektspeicher mit Azure Databricks?

Azure Databricks unterstützt sowohl Azure Data Lake Storage Gen2-Container als auch Cloudflare R2-Buckets (Public Preview) als Cloudspeicherorte für Daten und KI-Ressourcen, die im Unity-Katalog registriert sind. R2 ist in erster Linie für Anwendungsfälle vorgesehen, in denen Sie Datenausgangsgebühren vermeiden möchten, z. B. Delta-Freigabe über Clouds und Regionen hinweg. Weitere Informationen finden Sie unter Verwenden von Cloudflare R2-Replikaten oder Migrieren von Speicher zu R2.

Um Zugriff auf den zugrunde liegenden Cloudspeicher zu verwalten, der Tabellen und Volumes enthält, verwendet Unity Catalog die folgenden Objekttypen:

  • Eine Speicheranmeldeinformation stellt einen Authentifizierungs- und Autorisierungsmechanismus für den Zugriff auf Daten dar, die auf Ihrem Cloudmandanten gespeichert sind, mithilfe einer von Azure verwalteten Identität oder einem Dienstprinzipal für Azure Data Lake Storage Gen2-Container oder einem R2-API-Token für Cloudflare R2-Buckets. Für alle Speicheranmeldeinformation gelten die Zugriffssteuerungsrichtlinien von Unity Catalog, mit denen festgelegt wird, welche Benutzer und Gruppen auf die Anmeldeinformationen zugreifen können. Wenn ein Benutzer keinen Zugriff auf Speicheranmeldeinformationen in Unity Catalog hat, schlägt die Anforderung fehl, und Unity Catalog versucht nicht, sich im Namen des Benutzers bei Ihrem Cloudmandanten zu authentifizieren. Berechtigungen zum Erstellen von Speicheranmeldeinformationen sollten nur Benutzern erteilt werden, die externe Speicherorte definieren müssen. Weitere Informationen finden Sie unter Erstellen einer Speicheranmeldeinformation zum Herstellen einer Verbindung mit Azure Data Lake Storage Gen2 und Erstellen einer Speicheranmeldeinformation zum Herstellen einer Verbindung mit Cloudflare R2.

  • Ein externer Speicherort ist ein Objekt, das einen Cloudspeicherpfad mit Speicheranmeldeinformationen kombiniert, die einen Zugriff auf den Cloudspeicherpfad autorisieren. Für alle Speicherorte gelten die Zugriffssteuerungsrichtlinien von Unity Catalog, mit denen festgelegt wird, welche Benutzer und Gruppen auf die Anmeldeinformationen zugreifen können. Wenn ein Benutzer keinen Zugriff auf einen Speicherort in Unity Catalog hat, schlägt die Anforderung fehl, und Unity Catalog versucht nicht, sich im Namen des Benutzers bei Ihrem Cloudmandanten zu authentifizieren. Die Berechtigung zum Erstellen und Verwenden externer Speicherorte sollte nur Benutzer*innen gewährt werden, die externe Tabellen, externe Volumes oder verwaltete Speicherorte erstellen müssen. Weitere Informationen finden Sie unter Erstellen eines externen Speicherorts zum Verbinden des Cloudspeichers mit Azure Databricks.

    Externe Speicherorte werden sowohl für externe Datenressourcen wie externe Tabellen und externe Volumes als auch für verwaltete Datenressourcen wie verwaltete Tabellen und verwaltete Volumes verwendet. Weitere Informationen zum Unterschied finden Sie unter Tabellen und Volumes.

    Wenn ein externer Speicherort zum Speichern verwalteter Tabellen und verwalteter Volumes verwendet wird, wird er als verwalteter Speicherort bezeichnet. Verwaltete Speicherorte können auf Metastore-, Katalog- oder Schemaebene vorhanden sein. Databricks empfiehlt, verwaltete Speicherorte auf Katalogebene zu konfigurieren. Wenn Sie eine präzisere Isolierung benötigen, können Sie verwaltete Speicherorte auf Schemaebene angeben. Arbeitsbereiche, die für Unity Catalog aktiviert sind, verfügen standardmäßig über keinen Speicher auf Metastoreebene. Sie können jedoch einen verwalteten Speicherort auf Metastoreebene angeben, um Standardspeicher bereitzustellen, wenn kein Speicher auf Katalogebene definiert ist. Arbeitsbereiche, die für Unity-Katalog aktiviert sind, erhalten standardmäßig einen verwalteten Speicherort auf Metastoreebene. Weitere Informationen finden Sie unter Angeben eines verwalteten Speicherorts in Unity Catalog und Bewährte Methoden für Unity Catalog.

Volumes sind das sicherungsfähige Objekt, das die meisten Azure Databricks-Benutzer verwenden sollten, um direkt mit nicht tabellarischen Daten im Cloudobjektspeicher zu interagieren. Siehe Erstellen und Verwenden von Volumes.

Hinweis

Während Unity Catalog den pfadbasierten Zugriff auf externe Tabellen und externe Volumes mithilfe von Cloudspeicher-URIs unterstützt, empfiehlt Databricks, dass Benutzer alle Unity-Katalogtabellen mithilfe von Tabellennamen und Zugreifen auf Daten in Volumes mit /Volumes-Pfaden lesen und schreiben.

Nächste Schritte

Wenn Sie als Administrator*in gerade erst mit Unity Catalog beginnen, lesen Sie Einrichten und Verwalten von Unity Catalog.

Wenn Sie ein neuer Benutzer oder eine neue Benutzerin sind und Ihr Arbeitsbereich bereits für Unity Catalog aktiviert ist, sehen Sie sich das Tutorial: Erstellen von Tabellen und Zuweisen von Berechtigungen in Unity Catalog an.