Share via


Verbinding maken naar opslag van cloudobjecten met behulp van Unity Catalog

Dit artikel bevat een overzicht van de configuraties voor cloudopslagverbindingen die nodig zijn om met gegevens te werken met behulp van Unity Catalog.

Databricks raadt het gebruik van Unity Catalog aan om de toegang te beheren tot alle gegevens die zijn opgeslagen in cloudobjectopslag. Unity Catalog biedt een reeks hulpprogramma's voor het configureren van beveiligde verbindingen met cloudobjectopslag. Deze verbindingen bieden toegang om de volgende acties uit te voeren:

  • Onbewerkte gegevens opnemen in een lakehouse.
  • Beheerde tabellen maken en lezen in beveiligde cloudopslag.
  • Externe tabellen met tabelgegevens registreren of maken.
  • Ongestructureerde gegevens lezen en schrijven.

Waarschuwing

Geef eindgebruikers geen toegang op opslagniveau tot beheerde tabellen of volumes in Unity Catalog. Hierdoor wordt de beveiliging en governance van gegevens aangetast.

Het verlenen van gebruikers directe toegang op opslagniveau tot externe locatieopslag in Azure Data Lake Storage Gen2 verleent geen machtigingen die zijn verleend of controles die worden onderhouden door Unity Catalog. Directe toegang slaat controle-, herkomst- en andere beveiligings- en bewakingsfuncties van Unity Catalog over, waaronder toegangsbeheer en machtigingen. U bent verantwoordelijk voor het beheren van directe opslagtoegang via Azure Data Lake Storage Gen2 en ervoor zorgen dat gebruikers over de juiste machtigingen beschikken die via Fabric zijn verleend.

Vermijd alle scenario's die schrijftoegang op opslagniveau verlenen voor buckets die door Databricks beheerde tabellen opslaan. Als u objecten rechtstreeks wijzigt, verwijdert of ontwikkelt via opslag die oorspronkelijk door Unity Catalog is beheerd, kan dit leiden tot beschadiging van gegevens.

Notitie

Als uw werkruimte vóór 9 november 2023 is gemaakt, is deze mogelijk niet ingeschakeld voor Unity Catalog. Een accountbeheerder moet Unity Catalog inschakelen voor uw werkruimte. Zie Een werkruimte inschakelen voor Unity Catalog.

Hoe verbindt Unity Catalog objectopslag met Azure Databricks?

Azure Databricks ondersteunt zowel Azure Data Lake Storage Gen2-containers als Cloudflare R2-buckets (openbare preview) als cloudopslaglocaties voor gegevens en AI-assets die zijn geregistreerd in Unity Catalog. R2 is voornamelijk bedoeld voor gebruiksscenario's waarin u kosten voor uitgaand gegevens wilt voorkomen, zoals Delta Sharing in clouds en regio's. Zie Cloudflare R2-replica's gebruiken of opslag migreren naar R2 voor meer informatie.

Voor het beheren van de toegang tot de onderliggende cloudopslag die tabellen en volumes bevat, gebruikt Unity Catalog de volgende objecttypen:

  • Een opslagreferentie vertegenwoordigt een verificatie- en autorisatiemechanisme voor toegang tot gegevens die zijn opgeslagen in uw cloudtenant, met behulp van een door Azure beheerde identiteit of service-principal voor Azure Data Lake Storage Gen2-containers of een R2 API-token voor Cloudflare R2-buckets. Elke opslagreferentie is onderworpen aan toegangsbeheerbeleid voor Unity Catalog waarmee wordt bepalen welke gebruikers en groepen toegang hebben tot de referentie. Als een gebruiker geen toegang heeft tot een opslagreferentie in Unity Catalog, mislukt de aanvraag en probeert Unity Catalog niet namens de gebruiker te verifiëren bij uw cloudtenant. Machtigingen voor het maken van opslagreferenties mogen alleen worden verleend aan gebruikers die externe locaties moeten definiëren. Zie Een opslagreferentie maken om verbinding te maken met Azure Data Lake Storage Gen2 en een opslagreferentie maken om verbinding te maken met Cloudflare R2.

  • Een externe locatie is een object dat een cloudopslagpad combineert met een opslagreferentie waarmee toegang tot het cloudopslagpad wordt geautoriseerd. Elke opslaglocatie is onderworpen aan toegangsbeheerbeleid voor Unity Catalog waarmee wordt bepalen welke gebruikers en groepen toegang hebben tot de referentie. Als een gebruiker geen toegang heeft tot een opslaglocatie in Unity Catalog, mislukt de aanvraag en probeert Unity Catalog niet namens de gebruiker te verifiëren bij uw cloudtenant. Machtigingen voor het maken en gebruiken van externe locaties mogen alleen worden verleend aan gebruikers die externe tabellen, externe volumes of beheerde opslaglocaties moeten maken. Zie Een externe locatie maken om cloudopslag te verbinden met Azure Databricks.

    Externe locaties worden zowel gebruikt voor externe gegevensassets, zoals externe tabellen en externe volumes, als voor beheerde gegevensassets, zoals beheerde tabellen en beheerde volumes. Zie Tabellen en volumes voor meer informatie over het verschil.

    Wanneer een externe locatie wordt gebruikt voor het opslaan van beheerde tabellen en beheerde volumes, wordt deze een beheerde opslaglocatie genoemd. Beheerde opslaglocaties kunnen bestaan op metastore-, catalogus- of schemaniveau. Databricks raadt het configureren van beheerde opslaglocaties op catalogusniveau aan. Als u meer gedetailleerde isolatie nodig hebt, kunt u beheerde opslaglocaties opgeven op schemaniveau. Werkruimten die zijn ingeschakeld voor Unity Catalog, hebben standaard geen opslag op metastoreniveau, maar u kunt een beheerde opslaglocatie opgeven op metastoreniveau om standaardlocatie te bieden wanneer er geen opslag op catalogusniveau is gedefinieerd. Werkruimten die zijn ingeschakeld voor Unity Catalog, ontvangen standaard een beheerde opslaglocatie op metastoreniveau. Zie Geef een beheerde opslaglocatie op in de aanbevolen procedures voor Unity Catalog en Unity Catalog.

Volumes zijn het beveiligbare object dat de meeste Azure Databricks-gebruikers moeten gebruiken om rechtstreeks te communiceren met niet-tabellaire gegevens in de opslag van cloudobjecten. Zie Maken en werken met volumes.

Notitie

Hoewel Unity Catalog ondersteuning biedt voor padgebaseerde toegang tot externe tabellen en externe volumes met behulp van cloudopslag-URI's, raadt Databricks gebruikers aan om alle Unity Catalog-tabellen te lezen en te schrijven met behulp van tabelnamen en toegang tot gegevens in volumes met behulp van /Volumes paden.

Volgende stappen

Als u net aan de slag gaat met Unity Catalog als beheerder, raadpleegt u Unity Catalog instellen en beheren.

Als u een nieuwe gebruiker bent en uw werkruimte al is ingeschakeld voor Unity Catalog, raadpleegt u Zelfstudie: Uw eerste tabel maken en bevoegdheden verlenen.