Delen via


Een opslagreferentie maken om verbinding te maken met Azure Data Lake Storage Gen2

In dit artikel wordt beschreven hoe u een opslagreferentie maakt in Unity Catalog om verbinding te maken met Azure Data Lake Storage Gen2.

Voor het beheren van de toegang tot de onderliggende cloudopslag die tabellen en volumes bevat, gebruikt Unity Catalog de volgende objecttypen:

  • Opslagreferenties bevatten een langetermijncloudreferentie die toegang biedt tot cloudopslag.
  • Externe locaties bevatten een verwijzing naar een opslagreferentie en een cloudopslagpad.

Zie Verbinding maken met cloudobjectopslag met behulp van Unity Catalog voor meer informatie.

Unity Catalog ondersteunt twee cloudopslagopties voor Azure Databricks: Azure Data Lake Storage Gen2-containers en Cloudflare R2-buckets. Cloudflare R2 is voornamelijk bedoeld voor gebruiksscenario's voor Delta Sharing waarin u kosten voor uitgaande gegevens wilt voorkomen. Azure Data Lake Storage Gen2 is geschikt voor de meeste andere gebruiksvoorbeelden. Dit artikel is gericht op het maken van opslagreferenties voor Azure Data Lake Storage Gen2-containers. Zie Voor Cloudflare R2 een opslagreferentie maken om verbinding te maken met Cloudflare R2.

Als u een opslagreferentie wilt maken voor toegang tot een Azure Data Lake Storage Gen2-container, maakt u een Azure Databricks-toegangsconnector die verwijst naar een door Azure beheerde identiteit en deze machtigingen toewijst aan de opslagcontainer. Vervolgens verwijst u naar die toegangsconnector in de definitie van de opslagreferentie.

Vereisten

In Azure Databricks:

  • Azure Databricks-werkruimte ingeschakeld voor Unity Catalog.

  • CREATE STORAGE CREDENTIAL bevoegdheid voor de Unity Catalog-metastore die is gekoppeld aan de werkruimte. Accountbeheerders en metastore-beheerders hebben deze bevoegdheid standaard.

    Notitie

    Service-principals moeten de rol accountbeheerder hebben om een opslagreferentie te maken die gebruikmaakt van een beheerde identiteit. U kunt niet delegeren CREATE STORAGE CREDENTIAL aan een service-principal. Dit geldt voor service-principals van Azure Databricks en Microsoft Entra ID (voorheen Azure Active Directory).

In uw Azure-tenant:

  • Een Azure Data Lake Storage Gen2-opslagcontainer in dezelfde regio als de werkruimte waaruit u toegang wilt krijgen tot de gegevens.

    Het Azure Data Lake Storage Gen2-opslagaccount moet een hiƫrarchische naamruimte hebben.

  • Inzender of eigenaar van een Azure-resourcegroep.

  • Eigenaar of een gebruiker met de Azure RBAC-rol Gebruikerstoegangsbeheerder voor het opslagaccount.

Een opslagreferentie maken met een beheerde identiteit

U kunt een door Azure beheerde identiteit of een service-principal gebruiken als de identiteit die toegang tot uw opslagcontainer autoriseert. Beheerde identiteiten worden sterk aanbevolen. Ze hebben het voordeel dat Unity Catalog toegang heeft tot opslagaccounts die worden beveiligd door netwerkregels, wat niet mogelijk is met behulp van service-principals, en ze verwijderen de noodzaak om geheimen te beheren en te roteren. Als u een service-principal wilt gebruiken, raadpleegt u Beheerde opslag voor Unity Catalog maken met behulp van een service-principal (verouderd).

  1. Maak in Azure Portal een Azure Databricks-toegangsconnector en wijs deze machtigingen toe aan de opslagcontainer waartoe u toegang wilt krijgen met behulp van de instructies in Een beheerde identiteit configureren voor Unity Catalog.

    Een Azure Databricks-toegangsconnector is een eigen Azure-resource waarmee u beheerde identiteiten kunt verbinden met een Azure Databricks-account. U moet de rol Inzender of hoger hebben voor de toegangsconnectorresource in Azure om de opslagreferentie toe te voegen.

    Noteer de resource-id van de toegangsconnector.

  2. Meld u aan bij uw Azure Databricks-werkruimte met Unity Catalog als een gebruiker met de CREATE STORAGE CREDENTIAL bevoegdheid.

    De beheerdersrollen metastore en accountbeheerders omvatten beide deze bevoegdheid. Als u bent aangemeld als een service-principal (of een Microsoft Entra-id of systeemeigen Azure Databricks-service-principal), moet u de rol accountbeheerder hebben om een opslagreferentie te maken die gebruikmaakt van een beheerde identiteit.

  3. Klik op Cataloguspictogram Catalogus.

  4. Klik boven aan het deelvenster Catalogus op het Pictogram Toevoegen of plus pictogram Toevoegen en selecteer Een opslagreferentie toevoegen in het menu.

    Deze optie wordt niet weergegeven als u niet over de CREATE STORAGE CREDENTIAL bevoegdheid beschikt.

    U kunt ook op de pagina Snelle toegang op de knop Externe gegevens > klikken, naar het tabblad Opslagreferenties gaan en referenties maken selecteren.

  5. Selecteer een referentietype van Azure Managed Identity.

  6. Voer een naam in voor de referentie en voer de resource-id van de toegangsconnector in de indeling in:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
    
  7. (Optioneel) Als u de toegangsconnector hebt gemaakt met behulp van een door de gebruiker toegewezen beheerde identiteit, voert u de resource-id van de beheerde identiteit in het veld Door de gebruiker toegewezen beheerde identiteit in, in de indeling:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>
    
  8. (Optioneel) Als u wilt dat gebruikers alleen-lezentoegang hebben tot de externe locaties die gebruikmaken van deze opslagreferentie, selecteert u Alleen-lezen. Zie Een opslagreferentie markeren als alleen-lezen voor meer informatie.

  9. Klik op Opslaan.

  10. (Optioneel) Koppel de opslagreferentie aan specifieke werkruimten.

    Standaard kan elke bevoegde gebruiker de opslagreferentie gebruiken voor elke werkruimte die is gekoppeld aan de metastore. Als u alleen toegang vanuit specifieke werkruimten wilt toestaan, gaat u naar het tabblad Werkruimten en wijst u werkruimten toe. Zie (Optioneel) Een opslagreferentie toewijzen aan specifieke werkruimten.

  11. Maak een externe locatie die verwijst naar deze opslagreferentie.

(Optioneel) Een opslagreferentie toewijzen aan specifieke werkruimten

Belangrijk

Deze functie is beschikbaar als openbare preview.

Standaard is een opslagreferentie toegankelijk vanuit alle werkruimten in de metastore. Dit betekent dat als een gebruiker een bevoegdheid (zoals CREATE EXTERNAL LOCATION) heeft gekregen voor die opslagreferentie, deze bevoegdheden kan uitoefenen vanuit elke werkruimte die is gekoppeld aan de metastore. Als u werkruimten gebruikt om de toegang tot gebruikersgegevens te isoleren, wilt u mogelijk alleen toegang tot een opslagreferentie vanuit specifieke werkruimten toestaan. Deze functie staat bekend als isolatie van werkruimtebinding of opslagreferenties.

Een typische use case voor het koppelen van een opslagreferentie aan specifieke werkruimten is het scenario waarin een cloudbeheerder een opslagreferentie configureert met behulp van een referentie voor een productiecloudaccount en u ervoor wilt zorgen dat Azure Databricks-gebruikers deze referentie gebruiken om alleen externe locaties in de productiewerkruimte te maken.

Zie (Optioneel) Een externe locatie toewijzen aan specifieke werkruimten en de catalogustoegang tot specifieke werkruimten beperken voor meer informatie over werkruimtebinding.

Notitie

Er wordt verwezen naar werkruimtebindingen wanneer bevoegdheden voor opslagreferenties worden gebruikt. Als een gebruiker bijvoorbeeld een externe locatie maakt met behulp van een opslagreferentie, wordt de werkruimtebinding op de opslagreferentie alleen gecontroleerd wanneer de externe locatie wordt gemaakt. Nadat de externe locatie is gemaakt, werkt deze onafhankelijk van de werkruimtebindingen die zijn geconfigureerd op de opslagreferentie.

Een opslagreferentie koppelen aan een of meer werkruimten

Als u een opslagreferentie wilt toewijzen aan specifieke werkruimten, kunt u Catalog Explorer of de Databricks CLI gebruiken.

Vereiste machtigingen: de eigenaar van de metastore-beheerder of opslagreferentie.

Notitie

Metastore-beheerders kunnen alle opslagreferenties in een metastore zien met behulp van Catalog Explorer, en eigenaren van opslagreferenties kunnen alle opslagreferenties zien die ze bezitten in een metastore, ongeacht of de opslagreferenties zijn toegewezen aan de huidige werkruimte. Opslagreferenties die niet zijn toegewezen aan de werkruimte, worden grijs weergegeven.

Catalogusverkenner

  1. Meld u aan bij een werkruimte die is gekoppeld aan de metastore.

  2. Klik in de zijbalk op Cataloguspictogram Catalogus.

  3. Klik boven aan het deelvenster Catalogus op hetTandwielpictogram tandwielpictogram en selecteer Opslagreferenties.

    U kunt ook op de pagina Snelle toegang op de knop Externe gegevens > klikken en naar het tabblad Opslagreferenties gaan.

  4. Selecteer de opslagreferentie en ga naar het tabblad Werkruimten .

  5. Schakel op het tabblad Werkruimten het selectievakje Alle werkruimten toegang hebben .

    Als uw opslagreferentie al is gebonden aan een of meer werkruimten, is dit selectievakje al uitgeschakeld.

  6. Klik op Toewijzen aan werkruimten en voer de werkruimten in die u wilt toewijzen of zoek deze.

Als u de toegang wilt intrekken, gaat u naar het tabblad Werkruimten , selecteert u de werkruimte en klikt u op Intrekken. Als u toegang wilt toestaan vanuit alle werkruimten, schakelt u het selectievakje Alle werkruimten toegang hebben .

CLI

Er zijn twee Databricks CLI-opdrachtgroepen en twee stappen vereist om een opslagreferentie toe te wijzen aan een werkruimte.

Vervang in de volgende voorbeelden door <profile-name> de naam van uw Azure Databricks-verificatieconfiguratieprofiel. Het moet de waarde van een persoonlijk toegangstoken bevatten, naast de naam van het werkruimte-exemplaar en de werkruimte-id van de werkruimte waarin u het persoonlijke toegangstoken hebt gegenereerd. Zie persoonlijke toegangstokenverificatie van Azure Databricks.

  1. Gebruik de opdracht van de storage-credentials opdrachtgroep update om de opslagreferenties isolation mode in te stellen op ISOLATED:

    databricks storage-credentials update <my-storage-credential> \
    --isolation-mode ISOLATED \
    --profile <profile-name>
    

    De standaardwaarde isolation-mode is OPEN voor alle werkruimten die zijn gekoppeld aan de metastore.

  2. Gebruik de opdracht van de workspace-bindings opdrachtgroep update-bindings om de werkruimten toe te wijzen aan de opslagreferentie:

    databricks workspace-bindings update-bindings storage-credential <my-storage-credential> \
    --json '{
      "add": [{"workspace_id": <workspace-id>}...],
      "remove": [{"workspace_id": <workspace-id>}...]
    }' --profile <profile-name>
    

    Gebruik de "add" en "remove" eigenschappen om werkruimtebindingen toe te voegen of te verwijderen.

    Notitie

    Alleen-lezenbinding (BINDING_TYPE_READ_ONLY) is niet beschikbaar voor opslagreferenties. Daarom is er geen reden om de opslagreferentiebinding in te stellen binding_type .

Als u alle werkruimtetoewijzingen voor een opslagreferentie wilt weergeven, gebruikt u de opdracht van get-bindings de workspace-bindings opdrachtgroep:

databricks workspace-bindings get-bindings storage-credential <my-storage-credential> \
--profile <profile-name>

Een opslagreferentie uit een werkruimte ontkoppelen

Instructies voor het intrekken van werkruimtetoegang tot een opslagreferentie met behulp van Catalog Explorer of de workspace-bindings CLI-opdrachtgroep worden opgenomen in Een opslagreferentie binden aan een of meer werkruimten.

Volgende stappen

U kunt andere gebruikers toestemming geven om opslagreferenties te gebruiken, bij te werken, te verwijderen en te verlenen. Zie Opslagreferenties beheren.

U kunt externe locaties definiƫren met opslagreferenties. Zie Een opslagreferentie maken om verbinding te maken met Azure Data Lake Storage Gen2.