Delen via


Verbinding maken met opslag en services voor cloudobjecten met behulp van Unity Catalog

In dit artikel vindt u een overzicht van de cloudopslagverbindingen die nodig zijn voor het werken met gegevens met behulp van Unity Catalog, samen met informatie over hoe Unity Catalog de toegang tot cloudopslag en externe cloudservices regelt.

Notitie

Als uw werkruimte vóór 9 november 2023 is gemaakt, is deze mogelijk niet ingeschakeld voor Unity Catalog. Een accountbeheerder moet Unity Catalog inschakelen voor uw werkruimte. Zie Een werkruimte inschakelen voor Unity Catalog.

Hoe maakt Unity Catalog gebruik van cloudopslag?

Databricks raadt het gebruik van Unity Catalog aan om de toegang te beheren tot alle gegevens die u hebt opgeslagen in de opslag van cloudobjecten. Unity Catalog biedt een reeks hulpprogramma's voor het configureren van beveiligde verbindingen met cloudobjectopslag. Deze verbindingen bieden toegang om de volgende acties uit te voeren:

  • Onbewerkte gegevens opnemen in een lakehouse.
  • Beheerde tabellen en beheerde volumes met ongestructureerde gegevens maken en lezen in door Unity Catalog beheerde cloudopslag.
  • Registreer of maak externe tabellen met tabelgegevens en externe volumes die ongestructureerde gegevens bevatten in cloudopslag die wordt beheerd met behulp van uw cloudprovider.
  • Ongestructureerde gegevens lezen en schrijven (als Unity Catalog-volumes).

Om specifieker te zijn, maakt Unity Catalog gebruik van cloudopslag op twee primaire manieren:

  • Standaardopslaglocaties (of beheerde) opslaglocaties voor beheerde tabellen en beheerde volumes (ongestructureerde, niet-tabellaire gegevens) die u in Databricks maakt. Deze beheerde opslaglocaties kunnen worden gedefinieerd op metastore-, catalogus- of schemaniveau. U maakt beheerde opslaglocaties in uw cloudprovider, maar de levenscyclus ervan wordt volledig beheerd door Unity Catalog.
  • Opslaglocaties waar externe tabellen en volumes worden opgeslagen. Dit zijn tabellen en volumes waarvan de toegang vanuit Azure Databricks wordt beheerd door Unity Catalog, maar waarvan de levenscyclus en bestandsindeling worden beheerd met behulp van uw cloudprovider en andere gegevensplatforms. Normaal gesproken gebruikt u externe tabellen om grote hoeveelheden bestaande gegevens in Azure Databricks te registreren, of als u ook schrijftoegang tot de gegevens nodig hebt met behulp van hulpprogramma's buiten Azure Databricks.

Zie Wat zijn tabellen en weergaven? En wat zijn Unity Catalog-volumes? voor meer informatie over beheerde versus externe tabellen en volumes.

Waarschuwing

Geef eindgebruikers geen toegang op opslagniveau tot beheerde tabellen of volumes in Unity Catalog. Hierdoor wordt de beveiliging en governance van gegevens aangetast.

Het verlenen van gebruikers directe toegang op opslagniveau tot externe locatieopslag in Azure Data Lake Storage Gen2 verleent geen machtigingen die zijn verleend of controles die worden onderhouden door Unity Catalog. Directe toegang slaat controle-, herkomst- en andere beveiligings- en bewakingsfuncties van Unity Catalog over, waaronder toegangsbeheer en machtigingen. U bent verantwoordelijk voor het beheren van directe opslagtoegang via Azure Data Lake Storage Gen2 en ervoor zorgen dat gebruikers over de juiste machtigingen beschikken die via Fabric zijn verleend.

Vermijd alle scenario's die schrijftoegang op opslagniveau verlenen voor buckets die door Databricks beheerde tabellen opslaan. Als u objecten rechtstreeks wijzigt, verwijdert of ontwikkelt via opslag die oorspronkelijk door Unity Catalog is beheerd, kan dit leiden tot beschadiging van gegevens.

Welke cloudopslagproviders worden ondersteund?

Azure Databricks ondersteunt zowel Azure Data Lake Storage Gen2-containers als Cloudflare R2-buckets als cloudopslaglocaties voor gegevens en AI-assets die zijn geregistreerd in Unity Catalog. R2 is voornamelijk bedoeld voor gebruiksscenario's waarin u kosten voor uitgaand gegevens wilt voorkomen, zoals Delta Sharing in clouds en regio's. Zie Cloudflare R2-replica's gebruiken of opslag migreren naar R2 voor meer informatie.

Hoe bepaalt Unity Catalog de toegang tot cloudopslag?

Voor het beheren van de toegang tot de onderliggende cloudopslag die tabellen en volumes bevat, maakt Unity Catalog gebruik van een beveiligbaar object dat een externe locatie wordt genoemd. Hiermee definieert u een pad naar een cloudopslaglocatie en de referenties die nodig zijn voor toegang tot die locatie. Deze referenties worden op hun beurt gedefinieerd in een beveiligbaar object voor Unity Catalog, een opslagreferentie genoemd. Door toegang te verlenen en in te roepen tot externe locatiebeveiligingen in Unity Catalog, beheert u de toegang tot de gegevens in de cloudopslaglocatie. Door toegang tot opslagreferenties te verlenen en in te roepen in Unity Catalog, kunt u de mogelijkheid beheren om externe locatieobjecten te maken.

Zie Toegang tot cloudopslag beheren met behulp van Unity Catalog voor meer informatie.

Op pad gebaseerde toegang tot cloudopslag

Hoewel Unity Catalog ondersteuning biedt voor padgebaseerde toegang tot externe tabellen en externe volumes met behulp van cloudopslag-URI's, raadt Databricks gebruikers aan om alle Unity Catalog-tabellen te lezen en te schrijven met behulp van tabelnamen en toegang tot gegevens in volumes met behulp van /Volumes paden. Volumes zijn het beveiligbare object dat de meeste Azure Databricks-gebruikers moeten gebruiken om rechtstreeks te communiceren met niet-tabellaire gegevens in de opslag van cloudobjecten. Zie Wat zijn Unity Catalog-volumes?

Best practices voor cloudopslag met Unity Catalog

Azure Databricks vereist het gebruik van Azure Data Lake Storage Gen2 als de Azure-opslagservice voor gegevens die worden verwerkt in Azure Databricks met behulp van Unity Catalog-governance. Met Azure Data Lake Storage Gen2 kunt u opslag- en rekenkosten scheiden en profiteren van het verfijnde toegangsbeheer van Unity Catalog. Als gegevens worden opgeslagen in OneLake (de Microsoft Fabric Data Lake) en worden verwerkt door Databricks (het omzeilen van Unity Catalog), worden gebundelde opslag- en rekenkosten in rekening gebracht. Dit kan leiden tot kosten die ongeveer 3x hoger zijn voor leesbewerkingen en 1,6x hoger voor schrijfbewerkingen in vergelijking met Azure Data Lake Storage Gen2 voor het opslaan, lezen en schrijven van gegevens. Azure Blob Storage is ook niet compatibel met Unity Catalog.

Functie Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
Ondersteund door Unity Catalog X X
Hiervoor is extra aankoop van infrastructuurcapaciteit vereist X X
Ondersteunde bewerkingen van externe engines - Lezen
- Schrijven
- Lezen
- Schrijven
- Lezen (leesbewerkingen kosten 3x de kosten vergeleken met het lezen van gegevens uit Azure Data Lake Storage Gen2).
- Schrijfbewerkingen worden niet ondersteund.

Zie de OneLake-documentatie voor meer informatie.
Implementatie Regionaal Regionaal Globaal
Verificatie Shared Access Signature voor entra-id Shared Access Signature voor entra-id Entra-id
Gebeurtenissen van Storage X
Voorlopig verwijderen
Toegangsbeheer RBAC RBAC, ABAC, ACL RBAC (alleen tabel/map, snelkoppelings-ACL's niet ondersteund)
Versleutelingssleutels X
Toegangslagen Onlinearchief Dynamisch, statisch, koud, archief Alleen dynamisch

Hoe bepaalt Unity Catalog de toegang tot andere cloudservices?

Unity Catalog bepaalt de toegang tot niet-opslagservices met behulp van een beveiligbaar object dat een servicereferentie wordt genoemd. Een servicereferentie bevat een langetermijncloudreferentie die toegang biedt tot een externe service waarmee gebruikers verbinding moeten maken vanuit Azure Databricks.

Servicereferenties zijn niet bedoeld voor toegang tot cloudopslag die wordt gebruikt als een door Unity Catalog beheerde opslaglocatie of externe opslaglocatie. Gebruik voor deze use cases een opslagreferentie, zoals beschreven in Hoe bepaalt Unity Catalog de toegang tot cloudopslag?

Zie deze artikelen voor meer informatie:

Volgende stappen

Als u net aan de slag gaat met Unity Catalog als beheerder, raadpleegt u:

Als u een nieuwe gebruiker bent en uw werkruimte al is ingeschakeld voor Unity Catalog, raadpleegt u:

Zie voor meer informatie over het beheren van toegang tot cloudopslag:

Zie voor meer informatie over het beheren van toegang tot cloudservices: