Freigeben über


Aktivieren der Firewallunterstützung für das Speicherkonto des Arbeitsbereichs

Wenn Sie einen neuen Azure Databricks-Arbeitsbereich erstellen, wird ein Azure-Speicherkonto in einer verwalteten Ressourcengruppe erstellt. Hierbei handelt es sich um das sogenannte Speicherkonto des Arbeitsbereichs. Das Speicherkonto des Arbeitsbereichs enthält Arbeitsbereichssystemdaten (Auftragsausgabe, Systemeinstellungen und Protokolle), den DBFS-Stamm und in einigen Fällen einen Unity Catalog-Arbeitsbereichskatalog. In diesem Artikel erfahren Sie, wie Sie den Zugriff auf das Speicherkonto des Arbeitsbereichs mithilfe einer ARM-Vorlage auf autorisierte Ressourcen und Netzwerke beschränken.

Was ist die Firewallunterstützung für das Speicherkonto des Arbeitsbereichs?

Standardmäßig akzeptiert das Azure-Speicherkonto für das Speicherkonto des Arbeitsbereichs authentifizierte Verbindungen von allen Netzwerken. Sie können diesen Zugriff einschränken, indem Sie die Firewallunterstützung für das Speicherkonto des Arbeitsbereichs aktivieren. Dadurch werden öffentliche Netzwerkzugriffe sowie Zugriffe über nicht autorisierte Netzwerke auf das Speicherkonto des Arbeitsbereichs verhindert. Die Konfiguration dieses Features empfiehlt sich gegebenenfalls, wenn Ihre Organisation über Azure-Richtlinien verfügt, die sicherstellen, dass Speicherkonten privat sind.

Wenn die Firewallunterstützung für das Speicherkonto des Arbeitsbereichs aktiviert ist, müssen für sämtliche Zugriffe über Dienste außerhalb von Azure Databricks private Endpunkte mit Private Link verwendet werden. Azure Databricks erstellt einen Zugriffsconnector, um unter Verwendung einer verwalteten Azure-Identität eine Verbindung mit dem Speicher herzustellen. Für Zugriffe über serverloses Computing in Azure Databricks müssen entweder Dienstendpunkte oder private Endpunkte verwendet werden.

Anforderungen

  • Ihr Arbeitsbereich muss die VNet-Injektion für Verbindungen aus der klassischen Computeebene aktivieren.

    Wenn Sie einen neuen Arbeitsbereich erstellen, erstellen Sie ein virtuelles Netzwerk und zwei Subnetze, wie unter Anforderungen für virtuelle Netzwerke beschrieben.

  • Ihr Arbeitsbereich muss sichere Clusterkonnektivität (keine öffentliche IP/NPIP) für Verbindungen aus der klassischen Computeebene aktivieren.

  • Ihr Arbeitsbereich muss dem Premium-Tarif angehören.

  • Sie müssen über ein separates Subnetz für die privaten Endpunkte für das Speicherkonto verfügen. Dieses wird zusätzlich zu den beiden Hauptsubnetzen für die Azure Databricks-Grundfunktionen benötigt.

    Das Subnetz muss sich im gleichen VNet wie der Arbeitsbereich oder in einem separaten VNet befinden, auf das der Arbeitsbereich zugreifen kann. Verwenden Sie die Mindestgröße /28 in CIDR-Notation.

  • Wenn Sie Cloud Fetch mit dem Microsoft Fabric Power BI-Dienst verwenden, müssen Sie immer ein Gateway für privaten Zugriff auf das Speicherkonto des Arbeitsbereichs verwenden oder Cloud Fetch deaktivieren. Weitere Informationen finden Sie unter Schritt 3 (empfohlen): Konfigurieren privater Endpunkte für Cloud Fetch-Client-VNets.

Schritt 1: Bereitstellen der erforderlichen ARM-Vorlage

In diesem Schritt wird eine ARM-Vorlage zum Verwalten des Azure Databricks-Arbeitsbereichs verwendet. Sie können Ihren Arbeitsbereich auch mithilfe von Terraform aktualisieren oder erstellen. Sehen Sie sich den Terraform-Abieter azurerm_databricks_workspace an.

  1. Suchen Sie im Azure-Portal nach Deploy a custom template, und wählen Sie diese Option aus.
  2. Klicken Sie auf Eigene Vorlage im Editor erstellen.
  3. Kopieren Sie die ARM-Vorlage aus ARM-Vorlage zur Unterstützung der Firewall für das Speicherkonto des Arbeitsbereichs, und fügen Sie sie in den Editor ein.
  4. Klicken Sie auf Speichern.
  5. Überprüfen und bearbeiten Sie die Felder. Eine Beschreibung der Felder finden Sie unter ARM-Vorlagenfelder.
  6. Klicken Sie auf Überprüfen + erstellen und anschließend auf Erstellen.

Ihr Arbeitsbereich kann vorübergehend keine Notebooks oder Aufträge ausführen, bis Sie Ihre privaten Endpunkte erstellt haben.

Hinweis

Der öffentliche Netzwerkzugriff in Ihrem Arbeitsbereichsspeicherkonto wird auf Von ausgewählten virtuellen Netzwerken und IP-Adressen aktiviert und nicht auf Deaktiviert festgelegt, um serverlose Computing-Ressourcen zu unterstützen, ohne dass private Endpunkte erforderlich sind. Das Arbeitsbereichsspeicherkonto befindet sich in einer verwalteten Ressourcengruppe. Die Speicherfirewall kann nur aktualisiert werden, wenn Sie eine Netzwerkkonnektivitätskonfiguration (Network Connectivity Configuration, NCC) für serverlose Verbindungen zu Ihrem Arbeitsbereich hinzufügen. Siehe Schritt 5: Autorisieren von Verbindungen mit serverlosem Computing. Wenn Sie den Zugriff über serverloses Computing in Azure Databricks mithilfe privater Endpunkte ermöglichen möchten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.

Schritt 2: Erstellen privater Endpunkte für das Speicherkonto

Erstellen Sie zwei private Endpunkte für das Speicherkonto des Arbeitsbereichs aus Ihrem für die VNet-Injektion verwendeten VNet für die Werte vom Typ Zielunterressource: dfs und blob.

  1. Navigieren Sie im Azure-Portal zu Ihrem Arbeitsbereich.

  2. Klicken Sie unter Grundlegende Features auf den Namen der verwalteten Ressourcengruppe (unter Verwaltete Ressourcengruppe).

  3. Klicken Sie unter Ressourcen auf die Ressource vom Typ Speicherkonto, deren Name mit dbstorage beginnt.

  4. Klicken Sie auf der Seitenleiste auf Netzwerk.

  5. Klicken Sie auf Verbindungen mit privatem Endpunkt.

  6. Klicken sie auf + Privater Endpunkt.

  7. Legen Sie im Namensfeld Ressourcengruppe Ihre Ressourcengruppe fest. Hierbei darf es sich nicht um die verwaltete Ressourcengruppe handeln, in der sich das Speicherkonto des Arbeitsbereichs befindet.

  8. Geben Sie im Feld Name einen eindeutigen Namen für diesen privaten Endpunkt ein:

    • Erstellen Sie für den ersten privaten Endpunkt, den Sie für das jeweilige Quellnetzwerk erstellen, einen DFS-Endpunkt. Databricks empfiehlt, das Suffix -dfs-pe hinzuzufügen.
    • Erstellen Sie für den zweiten privaten Endpunkt, den Sie für das jeweilige Quellnetzwerk erstellen, einen Blobendpunkt. Databricks empfiehlt, das Suffix -blob-pe hinzuzufügen.

    Das Feld Name der Netzwerkschnittstelle wird automatisch aufgefüllt.

  9. Legen Sie das Feld Region auf die Region Ihres Arbeitsbereichs fest.

  10. Klicken Sie auf Weiter.

  11. Klicken Sie unter Zielunterressource auf den Zielressourcentyp.

    • Legen Sie diese Option für den ersten privaten Endpunkt, den Sie für das jeweilige Quellnetzwerk erstellen, auf dfs fest.
    • Legen Sie diese Option für den zweiten privaten Endpunkt, den Sie für das jeweilige Quellnetzwerk erstellen, auf blob fest.
  12. Wählen Sie im Feld Virtuelles Netzwerk ein VNet aus.

  13. Legen Sie im Subnetzfeld das Subnetz auf das separate Subnetz fest, das Sie für die privaten Endpunkte für das Speicherkonto konfiguriert haben.

    Dieses Feld wird unter Umständen automatisch mit dem Subnetz für Ihre privaten Endpunkte aufgefüllt. Es kann aber auch sein, dass Sie es explizit festlegen müssen. Sie können eines der beiden Arbeitsbereichssubnetze, die für grundlegende Azure Databricks-Arbeitsbereichsfunktionen verwendet werden und in der Regel private-subnet und public-subnet heißen, nicht verwenden.

  14. Klicken Sie auf Weiter. Die DNS-Registerkarte wird automatisch mit dem richtigen Abonnement und der richtigen Ressourcengruppe aufgefüllt, die Sie zuvor ausgewählt haben. Diese Angaben können bei Bedarf geändert werden.

  15. Klicken Sie auf Weiter, und fügen Sie bei Bedarf Tags hinzu.

  16. Klicken Sie auf Weiter, und überprüfen Sie die Felder.

  17. Klicken Sie auf Erstellen.

Wenn Sie die Firewallunterstützung für das Speicherkonto des Arbeitsbereichs deaktivieren möchten, können Sie den gleichen Prozess verwenden wie oben. Legen Sie nun aber den Parameter für die Speicherkontofirewall (storageAccountFirewall in der Vorlage) auf Disabled fest, und legen Sie das Feld Workspace Catalog Enabled auf true oder false fest (je nachdem, ob Ihr Arbeitsbereich einen Unity Catalog-Arbeitsbereichskatalog verwendet). Weitere Informationen finden Sie unter Kataloge.

Cloud Fetch ist ein Mechanismus in ODBC und JDBC und dient zum parallelen Abrufen von Daten über Cloudspeicher, damit Daten schneller in BI-Tools zur Verfügung stehen. Wenn Sie Abfrageergebnisse mit einer Größe von mehr als 1 MB aus BI-Tools abrufen, verwenden Sie wahrscheinlich Cloud Fetch.

Hinweis

Wenn Sie den Microsoft Fabric Power BI-Dienst mit Azure Databricks verwenden, müssen Sie Cloud Fetch deaktivieren, da dieses Feature den direkten Zugriff auf das Speicherkonto des Arbeitsbereichs über Fabric Power BI blockiert. Alternativ können Sie ein VNet-Datengateway oder ein lokales Datengateway konfigurieren, um private Zugriffe auf das Speicherkonto des Arbeitsbereichs zu ermöglichen. Dies gilt nicht für Power BI Desktop. Verwenden Sie zum Deaktivieren von Cloud Fetch die Konfiguration EnableQueryResultDownload=0.

Erstellen Sie bei Verwendung von Cloud Fetch private Endpunkte für das Speicherkonto des Arbeitsbereichs aus allen VNets Ihrer Cloud Fetch-Clients.

Erstellen Sie für jedes Quellnetzwerk für Cloud Fetch-Clients zwei private Endpunkte, die zwei verschiedene Werte für Zielunterressource verwenden: dfs und blob. Ausführliche Schritte finden Sie unter Schritt 2: Erstellen privater Endpunkte für das Speicherkonto. Achten Sie beim Erstellen des privaten Endpunkts im Feld Virtuelles Netzwerk darauf, dass Sie für jeden Cloud Fetch-Client Ihr Quell-VNet angeben.

Schritt 4: Bestätigen der Endpunktgenehmigungen

Nachdem Sie alle privaten Endpunkte für das Speicherkonto erstellt haben, vergewissern Sie sich, dass sie genehmigt wurden. Möglicherweise werden sie automatisch genehmigt. Es kann aber auch sein, dass sie im Speicherkonto genehmigt werden müssen.

  1. Navigieren Sie im Azure-Portal zu Ihrem Arbeitsbereich.
  2. Klicken Sie unter Grundlegende Features auf den Namen der verwalteten Ressourcengruppe (unter Verwaltete Ressourcengruppe).
  3. Klicken Sie unter Ressourcen auf die Ressource vom Typ Speicherkonto, deren Name mit dbstorage beginnt.
  4. Klicken Sie auf der Seitenleiste auf Netzwerk.
  5. Klicken Sie auf Verbindungen mit privatem Endpunkt.
  6. Vergewissern Sie sich, dass unter Verbindungsstatus der Wert Genehmigt angegeben ist, oder wählen Sie sie aus, und klicken Sie auf Genehmigen.

Schritt 5: Autorisieren von Verbindungen mit serverlosem Computing

Sie müssen für serverloses Computing die Verbindungsherstellung mit dem Speicherkonto des Arbeitsbereichs autorisieren, indem Sie eine Netzwerkkonnektivitätskonfiguration (Network Connectivity Configuration, NCC) an Ihren Arbeitsbereich anfügen. Wenn eine Netzwerkkonnektivitätskonfiguration an einen Arbeitsbereich angefügt wird, werden die Netzwerkregeln automatisch dem Azure-Speicherkonto für das Speicherkonto des Arbeitsbereichs hinzugefügt. Eine entsprechende Anleitung finden Sie unter Netzwerke auf der serverlosen Computeebene.

Wenn Sie den Zugriff über serverloses Computing in Azure Databricks mithilfe privater Endpunkte ermöglichen möchten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.