Freigeben über


Aktivieren des OneLake-Katalogverbunds

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature steuern, indem das Feature "OneLake Read Federation " auf der Seite "Vorschau" aktiviert wird. Siehe Verwalten von Azure Databricks-Vorschauen.

Nach dem Aktivieren des Features müssen Sie ihren Computecluster oder SQL Warehouse neu starten.

In diesem Artikel wird gezeigt, wie Daten in OneLake mithilfe des Katalogverbunds gelesen werden. Dadurch können Unity-Katalogabfragen direkt im OneLake-Speicher ausgeführt werden.

Der OneLake-Partnerverbund ermöglicht es Ihnen, daten zu analysieren, die in Ihrem Lakehouse oder Warehouse gespeichert sind, ohne sie zu kopieren und leistungsstarke Analysen und KI/BI-Funktionen in Azure Databricks direkt in Ihre OneLake-Daten zu bringen. Der Datenzugriff ist schreibgeschützt.

Bevor Sie anfangen

Sie müssen die folgenden Anforderungen erfüllen, um Verbundabfragen in OneLake mithilfe des Katalogverbunds auszuführen:

Anforderungen an den Arbeitsbereich:

  • Der Arbeitsbereich muss für Unity Catalog aktiviert sein.

Computeanforderungen:

  • Netzwerkkonnektivität von Ihrer Rechnerressource zu den Zieldatenbanksystemen. Weitere Informationen finden Sie unter Netzwerkempfehlungen für Lakehouse Federation.
  • Azure Databricks-Compute muss Databricks Runtime 18.0 oder höher und den Standard-Zugriffsmodus verwenden. Der dedizierte Zugriffsmodus wird nicht unterstützt.
  • SQL-Warehouses müssen professionell sein und Version 2025.35 oder höher nutzen. Serverlose SQL-Lagerhäuser werden nicht unterstützt.

Erforderliche Berechtigungen:

  • Um eine Verbindung zu erstellen, müssen Sie ein Metastore-Administrator oder ein Benutzer mit den CREATE CONNECTION- und CREATE STORAGE CREDENTIAL-Privilegien für den an den Arbeitsbereich angehängten Unity-Katalog-Metastore sein.
  • Um einen Fremdkatalog zu erstellen, müssen Sie über die Berechtigung „CREATE CATALOG“ für den Metastore verfügen und entweder der Besitzer der Verbindung sein oder über die Berechtigung „CREATE FOREIGN CATALOG“ für die Verbindung verfügen.

Zusätzliche Berechtigungsanforderungen werden in den folgenden aufgabenbasierten Abschnitten angegeben.

  • Sie müssen über Berechtigungen zum Erstellen von Ressourcen in Azure verfügen, den Zugriff in Fabric konfigurieren und den Unity-Katalog in Azure Databricks verwalten.
  • Unterstützte Authentifizierungsmethoden:
    • Azure Managed Identity über einen Access Connector für Azure Databricks
    • Azure-Dienstprinzipal
  • Nachdem Sie dieses Beta-Feature aktiviert haben, müssen Sie ihren Computecluster oder SQL Warehouse neu starten.

Die folgenden Fabric-Datenelemente werden unterstützt:

  • Fabric Lakehouse
  • Fabric Warehouse

Einrichten des Katalogverbunds

Die folgenden Schritte führen Sie durch das Erstellen des Verbindungs- und Fremdkatalogs für den OneLake-Partnerverbund.

Schritt 1: Einrichten der Azure-Authentifizierung

OneLake-Partnerverbund unterstützt zwei Authentifizierungsmethoden.

  • Azure Managed Identity (empfohlen): Verwendet einen Databricks Access Connector mit einer verwalteten Identität.
  • Azure Service Principal: Verwendet eine Microsoft Entra ID-Anwendung mit Clientanmeldeinformationen.

Option A: Erstellen eines Zugriffsverbinders (Verwaltete Identität)

Der Databricks Access Connector erstellt eine verwaltete Identität, die Azure Databricks zur Authentifizierung bei OneLake verwendet.

  1. Suchen Sie und erstellen Sie im Azure-Portal einen neuen Access Connector für Azure Databricks.

  2. Folgen Sie den Anweisungen zum Erstellen des Connectors. Diese Ressource erstellt eine vom System zugewiesene verwaltete Identität.

  3. Notieren Sie die Ressourcen-ID des neu erstellten Connectors. Sie benötigen diese ID beim Erstellen des Unity Catalog-Speicherberechtigungsnachweises.

    Die Ressourcen-ID hat folgendes Format:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
    

Weitere Informationen zum Erstellen von Zugriffsconnectors und zur Verwendung von Azure verwalteten Identitäten im Unity-Katalog, um auf den Speicher zuzugreifen, finden Sie hier.

Option B: Registrieren eines Dienstprinzipals

Wenn Sie lieber einen Dienstprinzipal anstelle einer verwalteten Identität verwenden möchten:

  1. Navigieren Sie im Azure-Portal zu Microsoft Entra>, und registrieren Sie eine neue Anwendung (oder verwenden Sie eine vorhandene Anwendung).
  2. Notieren Sie die Anwendungs-ID (Client) und die Verzeichnis-ID (Mandant).
  3. Erstellen Sie unter "Zertifikate und Geheime Schlüssel" einen neuen geheimen Clientschlüssel, und notieren Sie den geheimen Wert.

Schritt 2: Erteilen von Berechtigungen in Fabric

Erteilen Sie der verwalteten Identität oder dem Dienstprinzipal die Berechtigung zum Lesen der Fabric-Daten.

  1. Navigieren Sie im Fabric-Portal zu dem Arbeitsbereich, der Ihre Lakehouse- oder Warehouse-Datenelemente enthält.
  2. Klicken Sie im Arbeitsbereich auf das Zahnradsymbol " Arbeitsbereichseinstellungen " und dann auf "Zugriff verwalten".
  3. Klicken Sie auf "Personen oder Gruppen hinzufügen".
  4. Suchen und wählen Sie die verwaltete Identität oder den Dienstprinzipal aus. Bei Managed Identity sollte der Name mit dem zuvor erstellten Zugriffsconnector übereinstimmen. Suchen Sie für einen Dienstprinzipal nach dem von Ihnen registrierten Anwendungsnamen.
  5. Weisen Sie die Identität mindestens der Rolle "Mitglied " zu. Sie können auch die Rollen Mitwirkender oder Administrator zuweisen.
  6. Klicken Sie auf Hinzufügen.
  7. Überprüfen Sie, ob die Identität in der Zugriffsliste mit der entsprechenden Rolle angezeigt wird. Berechtigungen für einzelne Lakehouse- und Warehouse-Elemente werden von der Rolle auf Arbeitsbereichsebene geerbt.

Schritt 3: Erstellen einer Speicheranmeldeinformation

Erstellen Sie eine Speicheranmeldeinformation im Unity-Katalog, die auf die identität verweist, die Sie in Schritt 1 konfiguriert haben.

  1. Klicken Sie im Azure Databricks-Arbeitsbereich auf das Datensymbol.Katalog.
  2. Klicken Sie oben im Katalogbereich auf das Symbol , und wählen Sie im Menü "Anmeldeinformationen erstellen " aus.

Wenn Sie eine verwaltete Identität verwenden:

  1. Im Modul Neue Anmeldeinformationen erstellen wählen Sie für den Anmeldeinformationstyp die Option Azure Managed Identity aus.
  2. Geben Sie für den Berechtigungsnamen einen Namen für die Speicherberechtigung ein (z. B.onelake_storage_cred).
  3. Geben Sie für die Access-Connector-ID die Ressourcen-ID des zuvor erstellten Zugriffsconnectors ein.
  4. (Optional) Fügen Sie einen Kommentar hinzu.
  5. Klicken Sie auf "Erstellen".

Wenn Sie einen Dienstprinzipal verwenden:

Sie können keine Dienstprinzipalspeicheranmeldeinformationen mithilfe des Katalog-Explorers erstellen. Sie müssen ein Azure Databricks-Kontoadministrator sein und die Speicheranmeldeinformationen-API verwenden. Beispiel:

curl -X POST -n \
https://<databricks-instance>/api/2.1/unity-catalog/storage-credentials \
-d '{
   "name": "<storage-credential-name>",
   "read_only": true,
   "azure_service_principal": {
      "directory_id": "<directory-id>",
      "application_id": "<application-id>",
      "client_secret": "<client-secret>"
   },
   "skip_validation": "false"
   }'

Sie können auch Speicheranmeldeinformationen mithilfe des Databricks Terraform-Anbieters und databricks_storage_credential erstellen.

Schritt 4: Erstellen einer Unity-Katalogverbindung

Erstellen Sie eine Unity-Katalogverbindung, die die Speicheranmeldeinformationen für den Zugriff auf OneLake verwendet.

  1. Klicken Sie im Azure Databricks-Arbeitsbereich auf das Datensymbol.Katalog.
  2. Klicken Sie oben im Katalogbereich auf das Symbol ", und wählen Sie im Menü "Verbindung erstellen " aus.
  3. Geben Sie auf der Seite " Grundlagen der Verbindung " einen Verbindungsnamen ein (z. B onelake_connection. ).
  4. Wählen Sie einen Verbindungstyp von OneLake aus.
  5. (Optional) Fügen Sie einen Kommentar hinzu.
  6. Klicke auf Weiter.
  7. Wählen Sie auf der Seite "Verbindungsdetails " für Anmeldeinformationen die Speicheranmeldeinformationen aus, die Sie im vorherigen Schritt erstellt haben (z. B onelake_storage_cred. ).
  8. Geben Sie für "Arbeitsbereich" die Arbeitsbereichs-ID Ihres OneLake-Arbeitsbereichs ein.
  9. Klicken Sie auf Verbindung herstellen.

Nachdem die Verbindung erstellt wurde, können Sie dieses Modal schließen.

Schritt 5: Erstellen eines fremden Katalogs

Ein fremder Katalog verknüpft ein bestimmtes Fabric-Datenelement mit einem Katalog im Unity-Katalog.

Rufen Sie die Fabric-Datenelement-ID ab

  1. Navigieren Sie im Fabric-Portal zum Ziel Lakehouse oder Warehouse.

  2. Kopieren Sie die Datenelement-ID, die eine GUID ist (z. B f089354e-8366-4e18-aea3-4cb4a3a50b48. ).

    Sie können diese GUID in der Fabric-Benutzeroberfläche finden oder sie aus der URL Ihres Browsers kopieren, wenn Sie zum Lakehouse oder Warehouse navigieren.

    https://app.powerbi.com/groups/<workspace-id>/lakehouses/<data-item-id>?experience=power-bi
    

Erstellen des Katalogs

  1. Klicken Sie in Ihrem Databricks-Arbeitsbereich auf das Datensymbol.Katalog.
  2. Klicken Sie oben im Katalogbereich auf das Symbol , und wählen Sie im Menü " Katalog erstellen " aus.
  3. Geben Sie im Dialogfeld " Neuen Katalog erstellen" einen Namen für den Katalog ein (z. B fabric_sales. ).
  4. Wählen Sie einen Typ von Fremd aus.
  5. Wählen Sie die Verbindung aus, die Sie in Schritt 4 erstellt haben (z. B. onelake_connection).
  6. Geben Sie für das Datenelement die Datenelement-ID ein, die Sie aus dem Fabric-Portal kopiert haben.
  7. (Optional) Klicken Sie auf " Verbindung testen" , um Ihre Konfiguration zu überprüfen.
  8. Klicken Sie auf "Erstellen".

Der Katalog wird automatisch synchronisiert, sodass die Fabric-Tabellen sofort verfügbar sind.

Erteilen von Berechtigungen für Verbundtabellen

Nach dem Einrichten des Katalogverbunds müssen Benutzer über die entsprechenden Unity-Katalogberechtigungen verfügen, um auf Verbundtabellen zuzugreifen:

  • Alle Benutzer benötigen USE CATALOG- und USE SCHEMA-Berechtigungen für den Katalog bzw. das Schema.
  • Um aus der Verbundtabelle zu lesen, benötigen Benutzer die SELECT Berechtigung.

Weitere Informationen zu Unity-Katalogberechtigungen und deren Gewährung finden Sie unter Verwalten von Berechtigungen im Unity-Katalog.

Abfragen von OneLake-Daten

Nachdem das Setup abgeschlossen ist, können Sie OneLake-Daten im Unity-Katalog suchen und abfragen.

Durchsuchen des Katalogs

  1. Navigieren Sie in Ihrem Databricks-Arbeitsbereich zum Katalog-Explorer.
  2. Suchen Sie den von Ihnen erstellten Katalog (z. B fabric_sales. ).
  3. Erweitern Sie den Katalog, um die synchronisierten Schemas und Tabellen aus dem Fabric Lakehouse oder Warehouse anzuzeigen.

Abfragen ausführen

Verwenden Sie die dreiteilige Benennungskonvention (catalog.schema.table) in Databricks SQL oder Notizbüchern:

SELECT COUNT(*)
FROM fabric_sales.silver.customer_details;
SELECT
  customer_id,
  customer_name,
  total_purchases
FROM fabric_sales.silver.customer_details
WHERE total_purchases > 1000
ORDER BY total_purchases DESC
LIMIT 10;

Einschränkungen

Der OneLake-Partnerverbund hat die folgenden Einschränkungen:

  • Schreibgeschützter Zugriff: Nur SELECT Abfragen werden unterstützt. Schreibvorgänge sind nicht verfügbar.
  • Authentifizierung: Azure Managed Identity und Azure Service Principal sind die unterstützten Authentifizierungsmethoden.
  • Unterstützte Datenelemente: Nur Fabric Lakehouse- und Warehouse-Elemente werden unterstützt.
  • Computeanforderungen: Sie müssen Databricks Runtime 18.0 oder höher verwenden. Dedizierter Zugriffsmodus und serverloses Berechnen werden nicht unterstützt.