Freigeben über


Herstellen einer Verbindung mit Cloudobjektspeichern mithilfe von Unity Catalog

In diesem Artikel finden Sie eine Übersicht über die Konfigurationen der Cloudspeicherverbindung, die für die Arbeit mit Daten mithilfe des Unity-Katalogs erforderlich sind.

Databricks empfiehlt die Verwendung von Unity Catalog, um den Zugriff auf alle im Cloudobjektspeicher gespeicherten Daten zu konfigurieren. Unity Catalog bietet eine Reihe von Tools zum Konfigurieren sicherer Verbindungen mit dem Cloudobjektspeicher. Diese Verbindungen ermöglichen den Zugriff, um die folgenden Aktionen auszuführen:

  • Erfassen von Rohdaten in einem Lakehouse
  • Erstellen und Lesen verwalteter Tabellen im sicheren Cloudspeicher
  • Registrieren oder Erstellen externer Tabellen, die Tabellendaten enthalten
  • Lesen und Schreiben unstrukturierter Daten

Warnung

Gewähren Sie Endbenutzer*innen keinen Zugriff auf verwaltete Unity Catalog-Tabellen oder Unity Catalog-Volumes auf Speicherebene. Dies gefährdet die Datensicherheit und Governance.

Wenn Benutzern direkter Zugriff auf den externen Standortspeicher in Azure Data Lake Storage Gen2 gewährt oder überwacht wird, werden keine Berechtigungen berücksichtigt, die vom Unity-Katalog verwaltet werden. Durch den direkten Zugriff werden Überwachung, Linien und andere Sicherheits- und Überwachungsfeatures des Unity-Katalogs umgangen, einschließlich Zugriffssteuerung und Berechtigungen. Sie sind für die Verwaltung des direkten Speicherzugriffs über Azure Data Lake Storage Gen2 verantwortlich und stellen sicher, dass Benutzer über Fabric über die entsprechenden Berechtigungen verfügen.

Vermeiden Sie alle Szenarien, die direkten Schreibzugriff auf Speicherebene für Buckets gewähren, in denen von Databricks verwaltete Tabellen gespeichert werden. Das Ändern, Löschen oder Entwickeln von Objekten direkt über den Speicher, der ursprünglich vom Unity-Katalog verwaltet wurde, kann zu einer Datenbeschädigung führen.

Hinweis

Wenn Ihr Arbeitsbereich vor dem 9. November 2023 erstellt wurde, ist er möglicherweise nicht für Unity Catalog aktiviert. Ein Kontoadministrator oder eine Kontoadministratorin muss Unity Catalog für Ihren Arbeitsbereich aktivieren. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.

Wie verbindet Unity Catalog den Objektspeicher mit Azure Databricks?

Azure Databricks unterstützt sowohl Azure Data Lake Storage Gen2-Container als auch Cloudflare R2-Buckets als Cloudspeicherorte für Daten und KI-Ressourcen, die in Unity Catalog registriert sind. R2 ist in erster Linie für Anwendungsfälle vorgesehen, in denen Sie Datenausgangsgebühren vermeiden möchten, z. B. Delta-Freigabe über Clouds und Regionen hinweg. Weitere Informationen finden Sie unter Verwenden von Cloudflare R2-Replikaten oder Migrieren von Speicher zu R2.

Um Zugriff auf den zugrunde liegenden Cloudspeicher zu verwalten, der Tabellen und Volumes enthält, verwendet Unity Catalog die folgenden Objekttypen:

  • Eine Speicheranmeldeinformation stellt einen Authentifizierungs- und Autorisierungsmechanismus für den Zugriff auf Daten dar, die auf Ihrem Cloudmandanten gespeichert sind, mithilfe einer von Azure verwalteten Identität oder einem Dienstprinzipal für Azure Data Lake Storage Gen2-Container oder einem R2-API-Token für Cloudflare R2-Buckets. Für alle Speicheranmeldeinformation gelten die Zugriffssteuerungsrichtlinien von Unity Catalog, mit denen festgelegt wird, welche Benutzer und Gruppen auf die Anmeldeinformationen zugreifen können. Wenn ein Benutzer keinen Zugriff auf Speicheranmeldeinformationen in Unity Catalog hat, schlägt die Anforderung fehl, und Unity Catalog versucht nicht, sich im Namen des Benutzers bei Ihrem Cloudmandanten zu authentifizieren. Berechtigungen zum Erstellen von Speicheranmeldeinformationen sollten nur Benutzern erteilt werden, die externe Speicherorte definieren müssen. Weitere Informationen finden Sie unter Erstellen einer Speicheranmeldeinformation zum Herstellen einer Verbindung mit Azure Data Lake Storage Gen2 und Erstellen einer Speicheranmeldeinformation zum Herstellen einer Verbindung mit Cloudflare R2.

  • Ein externer Speicherort ist ein Objekt, das einen Cloudspeicherpfad mit Speicheranmeldeinformationen kombiniert, die einen Zugriff auf den Cloudspeicherpfad autorisieren. Für alle Speicherorte gelten die Zugriffssteuerungsrichtlinien von Unity Catalog, mit denen festgelegt wird, welche Benutzer und Gruppen auf die Anmeldeinformationen zugreifen können. Wenn ein Benutzer keinen Zugriff auf einen Speicherort in Unity Catalog hat, schlägt die Anforderung fehl, und Unity Catalog versucht nicht, sich im Namen des Benutzers bei Ihrem Cloudmandanten zu authentifizieren. Die Berechtigung zum Erstellen und Verwenden externer Speicherorte sollte nur Benutzer*innen gewährt werden, die externe Tabellen, externe Volumes oder verwaltete Speicherorte erstellen müssen. Weitere Informationen finden Sie unter Erstellen eines externen Speicherorts zum Verbinden des Cloudspeichers mit Azure Databricks.

    Externe Speicherorte werden sowohl für externe Datenressourcen wie externe Tabellen und externe Volumes als auch für verwaltete Datenressourcen wie verwaltete Tabellen und verwaltete Volumes verwendet. Weitere Informationen zum Unterschied finden Sie unter Was sind Tabellen und Ansichten? Und was sind Unity-Katalogvolumes?.

    Wenn ein externer Speicherort zum Speichern verwalteter Tabellen und verwalteter Volumes verwendet wird, wird er als verwalteter Speicherort bezeichnet. Verwaltete Speicherorte können auf Metastore-, Katalog- oder Schemaebene vorhanden sein. Databricks empfiehlt, verwaltete Speicherorte auf Katalogebene zu konfigurieren. Wenn Sie eine präzisere Isolierung benötigen, können Sie verwaltete Speicherorte auf Schemaebene angeben. Arbeitsbereiche, die automatisch für Unity Catalog aktiviert werden, verfügen standardmäßig über keinen Speicher auf Metastoreebene. Sie können jedoch einen verwalteten Speicherort auf Metastoreebene angeben, um einen Standardspeicherort bereitzustellen, wenn kein Speicher auf Katalogebene definiert ist. Arbeitsbereiche, die für Unity-Katalog aktiviert sind, erhalten standardmäßig einen verwalteten Speicherort auf Metastoreebene. Weitere Informationen finden Sie unter Angeben eines verwalteten Speicherorts in Unity Catalog und Bewährte Methoden für Unity Catalog.

Volumes sind das sicherungsfähige Objekt, das die meisten Azure Databricks-Benutzer verwenden sollten, um direkt mit nicht tabellarischen Daten im Cloudobjektspeicher zu interagieren. Weitere Informationen finden Sie unter Was sind Unity Catalog-Volumes?.

Hinweis

Während Unity Catalog den pfadbasierten Zugriff auf externe Tabellen und externe Volumes mithilfe von Cloudspeicher-URIs unterstützt, empfiehlt Databricks, dass Benutzer alle Unity-Katalogtabellen mithilfe von Tabellennamen und Zugreifen auf Daten in Volumes mit /Volumes-Pfaden lesen und schreiben.

Bewährte Methoden für Cloud-Speicher mit Unity-Katalog

Azure Databricks erfordert die Verwendung von Azure Data Lake Storage Gen2 als Azure-Speicherdienst für Daten, die in Azure Databricks mithilfe der Unity Catalog-Governance verarbeitet werden. Azure Data Lake Storage Gen2 ermöglicht es Ihnen, Speicher- und Berechnungskosten zu trennen sowie die feinkörnige Zugriffssteuerung zu nutzen, die von Unity Catalog bereitgestellt wird. Wenn Daten in OneLake (dem Microsoft Fabric Data Lake) gespeichert und von Databricks verarbeitet werden (um Unity Catalog umgehen), entstehen gebündelte Speicher- und Berechnungskosten. Dies kann zu Kosten führen, die etwa 3x höher für Lesevorgänge und 1,6x höher für Schreibvorgänge im Vergleich zu Azure Data Lake Storage Gen2 zum Speichern, Lesen und Schreiben von Daten sind. Azure Blob Storage ist auch nicht mit Unity Catalog kompatibel.

Funktion Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
Von Unity Catalog unterstützt X X
Erfordert zusätzlichen Fabric-Kapazitätskauf X X
Unterstützte Vorgänge von externen Engines - Lesen
- Schreiben
- Lesen
- Schreiben
– Lesen (Lesevorgänge verursachen 3x die Kosten im Vergleich zum Lesen von Daten aus Azure Data Lake Storage Gen2).
– Schreibvorgänge werden nicht unterstützt.

Weitere Informationen finden Sie in der OneLake-Dokumentation.
Bereitstellung Regional Länderspezifisch Global
Authentifizierung Entra-ID Shared Access Signature Entra-ID Shared Access Signature Entra ID
Speicherereignisse X
Vorläufiges Löschen
Zugriffssteuerung RBAC RBAC, ABAC, ACL RBAC (nur Tabelle/Ordner, Verknüpfungs-ACLs werden nicht unterstützt)
Verschlüsselungsschlüssel X
Zugriffsebenen Onlinearchiv Heiße Ebene, kalte Ebene, Cold, Archiv Nurheiße Ebene

Nächste Schritte

Wenn Sie als Administrator*in gerade erst mit Unity Catalog beginnen, lesen Sie Einrichten und Verwalten von Unity Catalog.

Wenn Sie ein neuer Benutzer oder eine neue Benutzerin sind und Ihr Arbeitsbereich bereits für Unity Catalog aktiviert ist, lesen Sie Tutorial: Erstellen Ihrer ersten Tabelle und Erteilen von Berechtigungen.