Delen via


Een opslagreferentie maken om verbinding te maken met Cloudflare R2

In dit artikel wordt beschreven hoe u een opslagreferentie maakt in Unity Catalog om verbinding te maken met Cloudflare R2. Voor Cloudflare R2-objectopslag worden geen uitgaande kosten in rekening gebracht. Als u gegevens repliceert of migreert die u met R2 deelt, kunt u gegevens delen in clouds en regio's zonder kosten voor uitgaand verkeer.

Notitie

Unity Catalog ondersteunt twee cloudopslagopties voor Azure Databricks: Azure Data Lake Storage Gen2-containers en Cloudflare R2-buckets. Cloudflare R2 is voornamelijk bedoeld voor gebruiksscenario's voor Delta Sharing waarin u kosten voor uitgaande gegevens van de cloudprovider wilt voorkomen. Azure Data Lake Storage Gen2 is geschikt voor de meeste andere gebruiksvoorbeelden. Zie De kosten voor uitgaand verkeer van Delta Sharing bewaken en beheren (voor providers) en een opslagreferentie maken om verbinding te maken met Azure Data Lake Storage Gen2.

Als u een R2-bucket wilt gebruiken als opslaglocatie voor gegevens die worden beheerd door Unity Catalog, moet u een opslagreferentie maken waarmee toegang tot de R2-bucket wordt geautoriseerd en een externe locatie wordt gemaakt die verwijst naar de opslagreferentie en het bucketpad:

  • Opslagreferenties bevatten een langetermijncloudreferentie die toegang biedt tot cloudopslag.
  • Externe locaties bevatten een verwijzing naar een opslagreferentie en een cloudopslagpad.

Dit artikel is gericht op het maken van een opslagreferentie.

Zie Toegang tot cloudopslag beheren met behulp van Unity Catalog voor meer informatie.

Vereisten

  • Databricks-werkruimte ingeschakeld voor Unity Catalog.

  • Databricks Runtime 14.3 of hoger, of SQL Warehouse 2024.15 of hoger.

    Als u het foutbericht No FileSystem for scheme "r2”krijgt, bevindt uw berekening zich waarschijnlijk op een niet-ondersteunde versie.

  • Cloudflare-account. Zie https://dash.cloudflare.com/sign-up.

  • Cloudflare R2-beheerdersrol. Raadpleeg de documentatie over Cloudflare-rollen.

  • CREATE STORAGE CREDENTIAL bevoegdheid voor de Unity Catalog-metastore die is gekoppeld aan de werkruimte. Accountbeheerders en metastore-beheerders hebben deze bevoegdheid standaard.

Een R2-bucket configureren

  1. Maak een Cloudflare R2-bucket.

    U kunt het Cloudflare-dashboard of het hulpprogramma Cloudflare Wrangler gebruiken.

    Zie de Documentatie 'Aan de slag' van Cloudflare R2 of de Wrangler-documentatie.

  2. Maak een R2 API-token en pas dit toe op de bucket.

    Raadpleeg de documentatie voor Cloudflare R2-API-verificatie.

    Stel de volgende tokeneigenschappen in:

    • Machtigingen: Object lezen en schrijven.

      Deze machtiging verleent lees- en schrijftoegang, die vereist is wanneer u R2-opslag als replicatiedoel gebruikt, zoals beschreven in Cloudflare R2-replica's gebruiken of opslag migreren naar R2.

      Als u alleen-lezentoegang van Azure Databricks wilt afdwingen naar de R2-bucket, kunt u in plaats daarvan een token maken dat alleen-lezentoegang verleent. Dit kan echter onnodig zijn, omdat u de opslagreferentie kunt markeren als alleen-lezen en alle schrijftoegang die door deze machtiging wordt verleend, wordt genegeerd.

    • (Optioneel) TTL: De tijdsduur die u wilt delen met de gegevensontvangers.

    • (Optioneel) Filteren van client-IP-adressen: selecteer deze optie als u de netwerktoegang tot opgegeven IP-adressen van geadresseerden wilt beperken. Als deze optie is ingeschakeld, moet u de IP-adressen van de geadresseerden opgeven en moet u het NAT-IP-adres van het Databricks-besturingsvlak voor de werkruimteregio toestaan.

    Zie azure Databricks-besturingsvlakadressen.

  3. Kopieer de R2 API-tokenwaarden:

    • Toegangssleutel-id
    • Geheime toegangssleutel

    Belangrijk

    Tokenwaarden worden slechts eenmaal weergegeven.

  4. Ga op de startpagina van R2 naar Accountgegevens en kopieer de R2-account-id.

De opslagreferentie maken

  1. Meld u in Azure Databricks aan bij uw werkruimte.

  2. Klik op Cataloguspictogram Catalogus.

  3. Klik op de pagina Snelle toegang op de knop Externe gegevens > , ga naar het tabblad Referenties en selecteer Referentie maken.

  4. Selecteer Opslagreferenties.

  5. Selecteer een referentietype van cloudflare-API-token.

  6. Voer een naam in voor de referentie en de volgende waarden die u hebt gekopieerd toen u de R2-bucket hebt geconfigureerd:

    • Account-id
    • Toegangssleutel-id
    • Geheime toegangssleutel
  7. (Optioneel) Als u wilt dat gebruikers alleen-lezentoegang hebben tot de externe locaties die gebruikmaken van deze opslagreferentie, selecteert u in Geavanceerde opties alleen-lezen.

    Selecteer deze optie niet als u de opslagreferentie wilt gebruiken voor toegang tot R2-opslag die u als replicatiedoel gebruikt, zoals wordt beschreven in Cloudflare R2-replica's gebruiken of opslag migreren naar R2.

    Zie Een opslagreferentie markeren als alleen-lezen voor meer informatie.

  8. Klik op Create.

  9. Kopieer de externe id in het dialoogvenster Opslagreferentie dat is gemaakt.

  10. (Optioneel) Koppel de opslagreferentie aan specifieke werkruimten.

    Standaard kan een opslagreferentie worden gebruikt door elke bevoegde gebruiker in elke werkruimte die is gekoppeld aan de metastore. Als u alleen toegang vanuit specifieke werkruimten wilt toestaan, gaat u naar het tabblad Werkruimten en wijst u werkruimten toe. Zie (Optioneel) Een opslagreferentie toewijzen aan specifieke werkruimten.

Volgende stap: de externe locatie maken

Zie Een externe locatie maken om cloudopslag te verbinden met Azure Databricks.