Erstellen von Speicheranmeldeinformation zum Herstellen einer Verbindung mit Cloudflare R2

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird beschrieben, wie Sie Speicheranmeldeinformationen in Unity Catalog erstellen, um eine Verbindung mit Cloudflare R2 herzustellen. Cloudflare R2-Objektspeicher verursacht keine Gebühren für ausgehende Daten. Durch das Replizieren oder Migrieren von Daten, die Sie für R2 freigeben, können Sie Daten cloud- und regionsübergreifend freigeben, ohne dass Gebühren anfallen.

Hinweis

Unity Catalog unterstützt zwei Cloudspeicheroptionen für Azure Databricks: Azure Data Lake Storage Gen2-Container und Cloudflare R2-Buckets. Cloudflare R2 ist in erster Linie für Delta Sharing-Anwendungsfälle vorgesehen, in denen Sie Datenausgangsgebühren für Cloudanbieter vermeiden möchten. Azure Data Lake Storage Gen2 eignet sich für die meisten anderen Anwendungsfälle. Weitere Informationen finden Sie unter Überwachen und Verwalten von Kosten für ausgehende Delta Sharing-Daten (für Anbieter) und Erstellen von Speicheranmeldeinformationen zum Herstellen einer Verbindung mit Azure Data Lake Storage Gen2.

Um einen R2-Bucket als Speicherort für Daten zu verwenden, die von Unity Catalog verwaltet werden, müssen Sie Speicheranmeldeinformationen erstellen, die den Zugriff auf den R2-Bucket autorisieren, und einen externen Speicherort erstellen, der auf die Speicheranmeldeinformationen und den Bucketpfad verweist:

  • Speicheranmeldeinformationen kapseln langfristige Cloudanmeldeinformationen, die Zugriff auf Cloudspeicher ermöglichen.
  • Externe Speicherorte enthalten einen Verweis auf Speicheranmeldeinformationen und einen Cloudspeicherpfad.

Dieser Artikel konzentriert sich auf das Erstellen von Speicheranmeldeinformationen.

Weitere Informationen finden Sie unter Herstellen einer Verbindung mit Cloudobjektspeichern mithilfe von Unity Catalog.

Anforderungen

  • Databricks-Arbeitsbereich, der für Unity Catalog aktiviert ist

  • Databricks Runtime 14.3 oder höher oder SQL Warehouse 2024.15 oder höher.

    Wenn die Fehlermeldung No FileSystem for scheme "r2” auftritt, befindet sich die Computeinstanz wahrscheinlich in einer nicht unterstützten Version.

  • Ein Cloudflare-Konto Siehe https://dash.cloudflare.com/sign-up.

  • Cloudflare R2-Administratorrolle. Weitere Informationen finden Sie in der Dokumentation zu Cloudflare-Rollen.

  • CREATE STORAGE CREDENTIAL-Berechtigungen für den Unity Catalog-Metastore, der an den Arbeitsbereich angefügt ist. Kontoadministratoren und Metastore-Administratoren verfügen standardmäßig über diese Berechtigungen.

Konfigurieren eines R2-Buckets

  1. Erstellen Sie einen Cloudflare R2-Bucket.

    Sie können das Cloudflare-Dashboard oder das Cloudflare-Wrangler-Tool verwenden.

    Sehen Sie sich die Cloudflare R2-Dokumentation zu den ersten Schritten oder die Wrangler-Dokumentation an.

  2. Erstellen Sie ein R2-API-Token, und wenden Sie es auf den Bucket an.

    Weitere Informationen finden Sie in der Dokumentation zur Cloudflare R2 API-Authentifizierung.

    Legen Sie die folgenden Tokeneigenschaften fest:

    • Berechtigungen: Objektlesezugriff und -schreibzugriff.

      Diese Berechtigung gewährt Lese- und Schreibzugriff, was erforderlich ist, wenn Sie R2-Speicher als Replikationsziel verwenden, wie in Verwenden von Cloudflare R2-Replikaten oder Migrieren von Speicher zu R2 beschrieben.

      Wenn Sie schreibgeschützten Zugriff von Azure Databricks auf den R2-Bucket erzwingen möchten, können Sie stattdessen ein Token erstellen, das schreibgeschützten Zugriff gewährt. Dies kann jedoch unnötig sein, da Sie die Speicheranmeldeinformationen als schreibgeschützt markieren können, und alle Schreibzugriffe, die von dieser Berechtigung gewährt werden, werden ignoriert.

    • (Optional) TTL: Dies ist die Zeitspanne, in der Sie die Bucketdaten für die Datenempfänger freigeben möchten.

    • (Optional) Client-IP-Adressfilterung: Wählen Sie aus, ob Sie den Netzwerkzugriff auf angegebene Empfänger-IP-Adressen einschränken möchten. Wenn diese Option aktiviert ist, müssen Sie Ihre Empfänger-IP-Adressen angeben und die NAT-Adresse der Databricks-Steuerungsebene für die Arbeitsbereichsregion zulassen.

    Siehe Adressen der Azure Databricks Steuerungsebene.

  3. Kopieren Sie die R2-API-Tokenwerte:

    • Zugriffsschlüssel-ID
    • Geheimer Zugriffsschlüssel

    Wichtig

    Tokenwerte werden nur einmal angezeigt.

  4. Wechseln Sie auf der R2-Homepage zu Kontodetails, und kopieren Sie die R2-Konto-ID.

Erstellen der Speicheranmeldeinformationen

  1. Melden Sie sich in Azure Databricks bei Ihrem Arbeitsbereich an.

  2. Klicken Sie auf KatalogsymbolKatalog.

  3. Klicken Sie auf die Schaltfläche +Add (+Hinzufügen), und wählen Sie Add a storage credential (Speicheranmeldeinformationen hinzufügen) aus dem Menü aus.

    Diese Option wird nicht angezeigt, wenn Sie nicht über die Berechtigungen CREATE STORAGE CREDENTIAL verfügen.

  4. Wählen Sie als AnmeldeinformationstypCloudflare-API-Token aus.

  5. Geben Sie einen Namen für die Anmeldeinformationen und die folgenden Werte ein, die Sie beim Konfigurieren des R2-Buckets kopiert haben:

    • Konto-ID
    • Zugriffsschlüssel-ID
    • Geheimer Zugriffsschlüssel
  6. (Optional) Wenn Sie möchten, dass Benutzer schreibgeschützten Zugriff auf die externen Speicherorte haben, die diese Speicheranmeldeinformationen verwenden, wählen Sie unter Erweiterte Optionen die Option Schreibgeschützt aus.

    Wählen Sie diese Option nicht aus, wenn Sie die Speicheranmeldeinformationen verwenden möchten, um auf den R2-Speicher zuzugreifen, den Sie als Replikationsziel verwenden, wie in Verwenden von Cloudflare R2-Replikaten oder Migrieren von Speicher R2 beschrieben.

    Weitere Informationen finden Sie unter Markieren von Speicheranmeldeinformationen als schreibgeschützt.

  7. Klicken Sie auf Erstellen.

  8. Kopieren Sie im Dialogfeld Erstellte Speicheranmeldeinformationen die Externe ID.

Nächster Schritt: Erstellen des externen Speicherorts

Weitere Informationen finden Sie unter Erstellen eines externen Speicherorts zum Verbinden des Cloudspeichers mit Azure Databricks.