Herstellen einer Verbindung mit Cloudobjektspeicher und -diensten mithilfe des Unity-Katalogs
Dieser Artikel enthält eine Übersicht über die Cloudspeicherverbindungen, die für die Arbeit mit Daten mithilfe des Unity-Katalogs erforderlich sind, sowie Informationen dazu, wie Unity Catalog den Zugriff auf Cloudspeicher und externe Clouddienste steuert.
Hinweis
Wenn Ihr Arbeitsbereich vor dem 9. November 2023 erstellt wurde, ist er möglicherweise nicht für Unity Catalog aktiviert. Ein Kontoadministrator oder eine Kontoadministratorin muss Unity Catalog für Ihren Arbeitsbereich aktivieren. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.
Wie verwendet Unity-Katalog Cloudspeicher?
Databricks empfiehlt die Verwendung des Unity-Katalogs, um den Zugriff auf alle Daten zu verwalten, die Sie im Cloudobjektspeicher gespeichert haben. Unity Catalog bietet eine Reihe von Tools zum Konfigurieren sicherer Verbindungen mit dem Cloudobjektspeicher. Diese Verbindungen ermöglichen den Zugriff, um die folgenden Aktionen auszuführen:
- Erfassen von Rohdaten in einem Lakehouse
- Erstellen und Lesen von verwalteten Tabellen und verwalteten Volumes von unstrukturierten Daten im unity-katalogverwalteten Cloudspeicher.
- Registrieren oder erstellen Sie externe Tabellen , die tabellarische Daten und externe Volumes enthalten, die unstrukturierte Daten im Cloudspeicher enthalten, der mit Ihrem Cloudanbieter verwaltet wird.
- Lesen und Schreiben unstrukturierter Daten (als Unity-Katalogvolumes).
Um spezifischer zu sein, verwendet Unity-Katalog Cloudspeicher auf zwei primäre Arten:
- Standardspeicherorte (oder "verwaltete") Speicherorte für verwaltete Tabellen und verwaltete Volumes (unstrukturierte, nicht tabellarische Daten), die Sie in Databricks erstellen. Diese verwalteten Speicherorte können auf Metastore-, Katalog- oder Schemaebene definiert werden. Sie erstellen verwaltete Speicherorte in Ihrem Cloudanbieter, deren Lebenszyklus wird jedoch vollständig vom Unity-Katalog verwaltet.
- Speicherorte, an denen externe Tabellen und Volumes gespeichert werden. Dies sind Tabellen und Volumes, deren Zugriff von Azure Databricks vom Unity-Katalog verwaltet wird, deren Datenlebenszyklus und Dateilayout jedoch mit Ihrem Cloudanbieter und anderen Datenplattformen verwaltet werden. Externe Tabellen werden in der Regel verwendet, um große Mengen an bereits vorhandenen Daten in Azure Databricks zu registrieren oder wenn Sie auch Schreibzugriff auf die Daten über Tools außerhalb von Azure Databricks benötigen.
Weitere Informationen zu verwalteten und externen Tabellen und Volumes finden Sie unter Was sind Tabellen und Ansichten? Und was sind Unity-Katalogvolumes?.
Warnung
Gewähren Sie Endbenutzer*innen keinen Zugriff auf verwaltete Unity Catalog-Tabellen oder Unity Catalog-Volumes auf Speicherebene. Dies gefährdet die Datensicherheit und Governance.
Wenn Benutzern direkter Zugriff auf den externen Standortspeicher in Azure Data Lake Storage Gen2 gewährt oder überwacht wird, werden keine Berechtigungen berücksichtigt, die vom Unity-Katalog verwaltet werden. Durch den direkten Zugriff werden Überwachung, Linien und andere Sicherheits- und Überwachungsfeatures des Unity-Katalogs umgangen, einschließlich Zugriffssteuerung und Berechtigungen. Sie sind für die Verwaltung des direkten Speicherzugriffs über Azure Data Lake Storage Gen2 verantwortlich und stellen sicher, dass Benutzer über Fabric über die entsprechenden Berechtigungen verfügen.
Vermeiden Sie alle Szenarien, die direkten Schreibzugriff auf Speicherebene für Buckets gewähren, in denen von Databricks verwaltete Tabellen gespeichert werden. Das Ändern, Löschen oder Entwickeln von Objekten direkt über den Speicher, der ursprünglich vom Unity-Katalog verwaltet wurde, kann zu einer Datenbeschädigung führen.
Welche Cloudspeicheranbieter werden unterstützt?
Azure Databricks unterstützt sowohl Azure Data Lake Storage Gen2-Container als auch Cloudflare R2-Buckets als Cloudspeicherorte für Daten und KI-Ressourcen, die in Unity Catalog registriert sind. R2 ist in erster Linie für Anwendungsfälle vorgesehen, in denen Sie Datenausgangsgebühren vermeiden möchten, z. B. Delta-Freigabe über Clouds und Regionen hinweg. Weitere Informationen finden Sie unter Verwenden von Cloudflare R2-Replikaten oder Migrieren von Speicher zu R2.
Wie steuert Unity-Katalog den Zugriff auf Cloudspeicher?
Um den Zugriff auf den zugrunde liegenden Cloudspeicher zu verwalten, der Tabellen und Volumes enthält, verwendet Unity Catalog ein sicherungsfähiges Objekt, das als externer Speicherort bezeichnet wird, der einen Pfad zu einem Cloudspeicherort und die anmeldeinformationen definiert, die für den Zugriff auf diesen Speicherort erforderlich sind. Diese Anmeldeinformationen werden wiederum in einem sicherungsfähigen Unity-Katalogobjekt definiert, das als Speicheranmeldeinformationen bezeichnet wird. Indem Sie den Zugriff auf sicherungsfähige externe Standorte im Unity-Katalog gewähren und widerrufen, steuern Sie den Zugriff auf die Daten am Cloudspeicherort. Indem Sie den Zugriff auf Speicheranmeldeinformationen im Unity-Katalog gewähren und widerrufen, steuern Sie die Möglichkeit, externe Speicherortobjekte zu erstellen.
Ausführliche Informationen finden Sie unter Verwalten des Zugriffs auf Cloudspeicher mithilfe des Unity-Katalogs.
Pfadbasierter Zugriff auf Cloudspeicher
Obwohl Unity Catalog pfadbasierten Zugriff auf externe Tabellen und externe Volumes mithilfe von Cloudspeicher-URIs unterstützt, empfiehlt Databricks, dass Benutzer alle Unity-Katalogtabellen mithilfe von Tabellennamen lesen und schreiben und auf Daten in Volumes mithilfe von /Volumes
Pfaden zugreifen. Volumes sind das sicherungsfähige Objekt, das die meisten Azure Databricks-Benutzer verwenden sollten, um direkt mit nicht tabellarischen Daten im Cloudobjektspeicher zu interagieren. Weitere Informationen finden Sie unter Was sind Unity Catalog-Volumes?.
Bewährte Methoden für Cloud-Speicher mit Unity-Katalog
Azure Databricks erfordert die Verwendung von Azure Data Lake Storage Gen2 als Azure-Speicherdienst für Daten, die in Azure Databricks mithilfe der Unity Catalog-Governance verarbeitet werden. Azure Data Lake Storage Gen2 ermöglicht es Ihnen, Speicher- und Berechnungskosten zu trennen sowie die feinkörnige Zugriffssteuerung zu nutzen, die von Unity Catalog bereitgestellt wird. Wenn Daten in OneLake (dem Microsoft Fabric Data Lake) gespeichert und von Databricks verarbeitet werden (um Unity Catalog umgehen), entstehen gebündelte Speicher- und Berechnungskosten. Dies kann zu Kosten führen, die etwa 3x höher für Lesevorgänge und 1,6x höher für Schreibvorgänge im Vergleich zu Azure Data Lake Storage Gen2 zum Speichern, Lesen und Schreiben von Daten sind. Azure Blob Storage ist auch nicht mit Unity Catalog kompatibel.
Funktion | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
Von Unity Catalog unterstützt | X | ✓ | X |
Erfordert zusätzlichen Fabric-Kapazitätskauf | X | X | ✓ |
Unterstützte Vorgänge von externen Engines | - Lesen - Schreiben |
- Lesen - Schreiben |
– Lesen (Lesevorgänge verursachen 3x die Kosten im Vergleich zum Lesen von Daten aus Azure Data Lake Storage Gen2). – Schreibvorgänge werden nicht unterstützt. Weitere Informationen finden Sie in der OneLake-Dokumentation. |
Bereitstellung | Regional | Länderspezifisch | Global |
Authentifizierung | Entra-ID Shared Access Signature | Entra-ID Shared Access Signature | Entra ID |
Speicherereignisse | ✓ | ✓ | X |
Vorläufiges Löschen | ✓ | ✓ | ✓ |
Zugriffssteuerung | RBAC | RBAC, ABAC, ACL | RBAC (nur Tabelle/Ordner, Verknüpfungs-ACLs werden nicht unterstützt) |
Verschlüsselungsschlüssel | ✓ | ✓ | X |
Zugriffsebenen | Onlinearchiv | Heiße Ebene, kalte Ebene, Cold, Archiv | Nurheiße Ebene |
Wie steuert Unity-Katalog den Zugriff auf andere Clouddienste?
Der Unity-Katalog steuert den Zugriff auf Nichtspeicherdienste mithilfe eines sicherungsfähigen Objekts, das als Dienstanmeldeinformationen bezeichnet wird. Eine Dienstanmeldeinformation kapselt eine langfristige Cloudanmeldeinformation, die Zugriff auf einen externen Dienst bietet, mit dem Benutzer eine Verbindung mit Azure Databricks herstellen müssen.
Dienstanmeldeinformationen sind nicht für die Steuerung des Zugriffs auf Cloudspeicher vorgesehen, der als verwalteter Unity-Katalogspeicherort oder externer Speicherort verwendet wird. Verwenden Sie für diese Anwendungsfälle eine Speicheranmeldeinformation, wie unter "Wie steuert Unity-Katalog den Zugriff auf Cloudspeicher?".
Einzelheiten dazu finden Sie unter:
- Verwalten des Zugriffs auf externe Clouddienste mithilfe von Dienstanmeldeinformationen
- Verwalten von Dienstanmeldeinformationen
- Verwenden von Unity Catalog-Dienstanmeldeinformationen zum Herstellen einer Verbindung mit externen Clouddiensten
Nächste Schritte
Wenn Sie gerade erst mit dem Unity-Katalog als Administrator beginnen, lesen Sie:
Wenn Sie ein neuer Benutzer sind und Ihr Arbeitsbereich bereits für Unity-Katalog aktiviert ist, lesen Sie:
Weitere Informationen zum Verwalten des Zugriffs auf Cloudspeicher finden Sie unter:
Weitere Informationen zum Verwalten des Zugriffs auf Clouddienste finden Sie unter: