Teilen über


Bereitstellen von Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNet-Injektion)

Stellen Sie Azure Databricks in Ihrem Azure-VNet bereit, um Netzwerkanpassungen, sichere Konnektivität mit Azure-Diensten und lokalen Datenquellen sowie Datenverkehrsüberprüfungsfunktionen zu ermöglichen.

Gründe für die Verwendung der VNet-Injektion

Die VNet-Integration stellt klassische Compute-Ebene-Ressourcen von Azure Databricks in Ihrem eigenen VNet bereit, wodurch Folgendes aktiviert wird:

  • Private Konnektivität mit Azure-Diensten mithilfe von Dienstendpunkten oder privaten Endpunkten
  • Lokaler Zugriff über benutzerdefinierte Routen
  • Datenverkehrsinspektion mit virtuellen Netzwerkgeräten
  • Benutzerdefinierte DNS-Konfiguration
  • Ausgehende Datenverkehrskontrolle mit zusätzlichen Netzwerksicherheitsgruppen (NSG)-Regeln
  • Flexible CIDR-Bereiche (VNet: /16 bis /24, Subnetze: bis /26)

Berechtigungsanforderungen

Azure-Berechtigungen: Der Arbeitsbereichsersteller muss über die Rolle "Netzwerkmitwirkender " im VNet oder über eine benutzerdefinierte Rolle mit Microsoft.Network/virtualNetworks/subnets/join/action und Microsoft.Network/virtualNetworks/subnets/write Berechtigungen verfügen.

VNet-Konfiguration

  1. Sie müssen ein VNet konfigurieren, um den Azure Databricks-Arbeitsbereich bereitzustellen. Sie können ein vorhandenes VNet verwenden oder ein neues erstellen. Das VNet muss die folgenden Anforderungen erfüllen:
    • Region: Das VNet muss sich in derselben Region wie der Azure Databricks-Arbeitsbereich befinden.
    • Abonnement: Das VNet muss sich im selben Abonnement wie der Azure Databricks-Arbeitsbereich befinden.
    • Adressraum: Ein CIDR-Block zwischen /16 und /24 für das VNet. Anleitungen zu maximalen Clusterknoten basierend auf der VNet-Größe finden Sie unter Adressraumleitfaden.
    • Subnetze: Das VNet muss zwei Subnetze enthalten, die Ihrem Azure Databricks-Arbeitsbereich zugeordnet sind:
      • Ein Containersubnetz (manchmal auch als privates Subnetz bezeichnet)
      • Ein Hostsubnetz (manchmal auch als öffentliches Subnetz bezeichnet)
      • Jedes Subnetz sollte mindestens einen CIDR-Block /26verwenden. Databricks empfiehlt kein Subnetz kleiner als /26.
      • Sie können keine Subnetze über Arbeitsbereiche hinweg freigeben oder andere Azure-Ressourcen in den Subnetzen bereitstellen, die von Ihrem Azure Databricks-Arbeitsbereich verwendet werden.
      • Es wird empfohlen, die Größe der Subnetze anzupassen.
    • Ausgehende Konnektivität für ausgehenden Datenverkehr: Databricks empfiehlt die Verwendung eines Azure NAT-Gateways für beide Subnetze für stabile Ausgangs-IPs. Nach dem 31. März 2026 erfordern neue VNets explizite ausgehende Konnektivitätsmethoden. Siehe sichere Clusterkonnektivität.
    • Regeln für Netzwerksicherheitsgruppen: Siehe Netzwerksicherheitsgruppenregeln

Hinweis

Wenn Sie einen Arbeitsbereich bereitstellen, der die Konnektivität für sichere Cluster (Secure Cluster Connectivity, SCC) nutzt, verwenden sowohl das Containersubnetz als auch das Hostsubnetz private IP-Adressen.

Adressraumleitfaden

Ein Azure Databricks-Arbeitsbereich erfordert zwei Subnetze im VNet: ein Containersubnetz und ein Hostsubnetz. Azure reserviert fünf IP-Adressen in jedem Subnetz. Azure Databricks erfordert zwei IP-Adressen für jeden Clusterknoten: eine IP-Adresse für den Host im Hostsubnetz und eine IP-Adresse für den Container im Container-Subnetz.

Berücksichtigen Sie bei der Planung Ihres Adressraums Folgendes:

  • Möglicherweise möchten Sie mehrere Arbeitsbereiche in einem einzelnen VNet erstellen. Da Sie Subnetze nicht für Arbeitsbereiche freigeben können, planen Sie Subnetze, die nicht den gesamten VNet-Adressraum verwenden.
  • Weisen Sie Adressraum für zwei neue Subnetze zu, die sich im Adressraum des VNet befinden, und überlappen sie nicht den Adressraum der aktuellen oder zukünftigen Subnetze in diesem VNet.

Bei einem Arbeitsbereich mit einem kleineren virtuellen Netzwerk können schneller keine IP-Adressen (Netzwerkadressraum) mehr verfügbar sein als bei einem Arbeitsbereich mit einem größeren virtuellen Netzwerk. Verwenden Sie einen CIDR-Block zwischen /16 und /24 für das VNet und einen CIDR-Block bis /26 für die zwei Subnetze (Containersubnetz und Hostsubnetz). Sie können einen CIDR-Block bis zu /28 für Ihre Subnetze erstellen. Azure Databricks empfiehlt jedoch kein Subnetz, das kleiner als /26 ist.

Schritt 1: Erstellen eines Arbeitsbereichs

Erstellen Sie einen Arbeitsbereich im Azure-Portal, und stellen Sie ihn in Ihrem VNet bereit.

  1. Wählen Sie im Azure-Portal +Eine Ressourcenanalyse >> für Azure Databricks erstellen oder nach Azure Databricks suchen.

  2. Wählen Sie auf der Registerkarte "Netzwerk " Ihr VNet aus.

    Wichtig

    Wenn das VNet nicht angezeigt wird, überprüfen Sie, ob sich der Arbeitsbereich und das VNet in derselben Azure-Region befinden.

  3. Konfigurieren von Subnetzen mit CIDR-Bereichen bis zu /26 (maximal 80 Zeichen für Namen):

    • Vorhandene Subnetze: Geben Sie genaue Subnetznamen und übereinstimmende IP-Bereiche ein.
    • Neue Subnetze: Geben Sie neue Namen und IP-Bereiche innerhalb des Adressraums Ihres VNet ein.

    Hinweis

    Subnetz-CIDR-Bereiche können nach der Bereitstellung nicht mehr geändert werden. Azure Databricks konfiguriert automatisch NSG-Regeln und Subnetzdelegierung zu Microsoft.Databricks/workspaces.

  4. Klicken Sie auf "Erstellen ", um den Arbeitsbereich bereitzustellen.

Schritt 2: Überprüfen der Arbeitsbereichsbereitstellung

  1. Wechseln Sie zum Azure-Portal, und navigieren Sie zu Ihrer Azure Databricks-Arbeitsbereichsressource.

  2. Überprüfen Sie auf der Seite "Übersicht " Folgendes:

    • Der Arbeitsbereich befindet sich in einem gesunden Zustand (nicht fehlgeschlagen).
    • Die Ressourcengruppe und die verwaltete Ressourcengruppe werden aufgelistet.
    • Virtuelles Netzwerk-Peering ist deaktiviert (dies wird für die VNet-Einfügung erwartet).

Die verwaltete Ressourcengruppe kann nicht geändert werden und kann nicht zum Erstellen virtueller Computer verwendet werden. Erstellen Sie virtuelle Computer in der von Ihnen verwalteten Ressourcengruppe.

Schritt 3: Überprüfen der Konfiguration der Netzwerksicherheitsgruppe

  1. Navigieren Sie im Azure-Portal zu Ihrem VNet.

  2. Klicken Sie unter "Einstellungen" auf "Subnetze".

  3. Überprüfen Sie, ob das Container-Subnetz und das Hostsubnetz Folgendes haben:

    • Eine zugeordnete Netzwerksicherheitsgruppe
    • Delegierung an Microsoft.Databricks/workspaces
  4. Klicken Sie auf die Netzwerksicherheitsgruppe, und stellen Sie sicher, dass die erforderlichen eingehenden und ausgehenden Regeln konfiguriert sind. Informationen zu den erwarteten Regeln finden Sie unter Referenz zu Netzwerksicherheitsgruppenregeln.

Schritt 4: Erstellen eines Clusters

Nachdem Sie Ihren Arbeitsbereich erstellt haben, erstellen Sie einen klassischen Computecluster, um zu überprüfen, ob die VNet-Einfügung ordnungsgemäß funktioniert.

  1. Wechseln Sie zu Ihrem Azure Databricks-Arbeitsbereich, und klicken Sie auf der Seite "Übersicht" auf "Arbeitsbereich starten".

  2. Klicken Sie auf der Seitenleiste auf ComputesymbolCompute.

  3. Klicken Sie auf der Seite „Compute“ auf Cluster erstellen.

  4. Geben Sie einen Clusternamen ein, lassen Sie die verbleibenden Werte im Standardzustand, und klicken Sie auf "Cluster erstellen".

Sobald der Cluster ausgeführt wird, enthält die Verwaltete Ressourcengruppe neue virtuelle Computer, Datenträger, IP-Adressen und Netzwerkschnittstellen. In jedem der öffentlichen und privaten Subnetze mit IP-Adressen wird eine Netzwerkschnittstelle erstellt.

Schritt 5: Überprüfen der Clusternetzwerkkonfiguration

  1. Wechseln Sie in Ihrem Azure Databricks-Arbeitsbereich zur Verwalteten Ressourcengruppe im Azure-Portal.

  2. Überprüfen Sie, ob die folgenden Ressourcen vorhanden sind:

    • Virtuelle Computer für die Clusterknoten
    • Datenträger, die an die virtuellen Computer angefügt sind
    • IP-Adressen für die Clusterknoten
    • Netzwerkschnittstellen sowohl in öffentlichen als auch in privaten Subnetzen
  3. Klicken Sie in Ihrem Azure Databricks-Arbeitsbereich auf den von Ihnen erstellten Cluster.

  4. Navigieren Sie zur Spark-Benutzeroberfläche , und klicken Sie auf die Registerkarte " Executors ".

  5. Stellen Sie sicher, dass sich die Adressen für den Treiber und die Executoren im privaten Subnetzbereich befinden. Wenn Ihr privates Subnetz z. B. lautet10.179.0.0/18, kann der Treiber 10.179.0.6 sein und Ausführende sein 10.179.0.4 und .10.179.0.5 Ihre IP-Adressen können unterschiedlich sein.

Stabile Egress-IP-Adressen

Für Arbeitsbereiche mit sicherer Clusterkonnektivität und VNet-Injektion empfiehlt Databricks, eine stabile öffentliche Egress-IP zu konfigurieren. Stabile IPs ermöglichen externe Zulassungslisten für Dienste wie Salesforce und IP-Zugriffslisten.

Warnung

Nach dem 31. März 2026 werden neue Azure VNets standardmäßig auf private Konfigurationen ohne ausgehenden Internetzugriff festgelegt. Neue Azure Databricks-Arbeitsbereiche erfordern explizite ausgehende Konnektivitätsmethoden wie ein NAT-Gateway. Vorhandene Arbeitsbereiche sind nicht betroffen. Siehe Ankündigung von Microsoft.

Informationen zum Konfigurieren einer stabilen Ausgangs-IP finden Sie unter "Ausgang mit VNet-Injektion".

Netzwerksicherheitsgruppen-Regeln

Azure Databricks stellt die unten aufgeführten NSG-Regeln automatisch bereit und verwaltet sie über die Subnetzdelegierung an den Dienst Microsoft.Databricks/workspaces. Diese Regeln sind für den Betrieb des Arbeitsbereichs erforderlich. Ändern oder löschen Sie diese Regeln nicht.

Hinweis

Einige Regeln verwenden VirtualNetwork sowohl als Quelle als auch als Ziel. Interne Netzwerkrichtlinien verhindern die clusterübergreifende Kommunikation, einschließlich zwischen Arbeitsbereichen im selben VNet.

Databricks empfiehlt die Verwendung eines eindeutigen NSG für jeden Arbeitsbereich.

Wichtig

Fügen Sie Verweigerungsregeln zu Netzwerk-Sicherheitsgruppen hinzu, die mit anderen Netzwerken und Subnetzen in denselben oder verbundenen virtuellen Netzwerken verbunden sind. Wenden Sie Deny-Regeln sowohl für eingehende als auch für ausgehende Verbindungen an, um den Datenverkehr zu und von Azure Databricks-Computerressourcen zu beschränken. Lassen Sie nur den minimalen Zugriff zu, der für Ihre Cluster erforderlich ist, um erforderliche Ressourcen zu erreichen.

Netzwerksicherheitsgruppenregeln für Arbeitsbereiche

Diese Tabelle zeigt die Regeln der Netzwerksicherheitsgruppe für Arbeitsbereiche und enthält zwei eingehende Sicherheitsgruppenregeln, die nur hinzugefügt werden, wenn die sichere Clusterkonnektivität (Secure Cluster Connectivity, SCC) deaktiviert ist.

Direction Protokoll Quelle Quellport Ziel Zielport Verwendet
Eingehend Beliebig VirtualNetwork Beliebig VirtualNetwork Beliebig Standard
Eingehend TCP AzureDatabricks (Diensttag)
Nur wenn SCC deaktiviert ist
Beliebig VirtualNetwork 22 Öffentliche IP-Adresse
Eingehend TCP AzureDatabricks (Diensttag)
Nur wenn SCC deaktiviert ist
Beliebig VirtualNetwork 5557 Öffentliche IP-Adresse
Ausgehend TCP VirtualNetwork Beliebig AzureDatabricks (Diensttag) 443, 3306, 8443-8451 Standard
Ausgehend TCP VirtualNetwork Beliebig SQL 3306 Standard
Ausgehend TCP VirtualNetwork Beliebig Speicher 443 Standard
Ausgehend Beliebig VirtualNetwork Beliebig VirtualNetwork Beliebig Standard
Ausgehend TCP VirtualNetwork Beliebig EventHub 9093 Standard

Hinweis

Wenn Sie Ausgangsregeln einschränken, empfiehlt Databricks, die Ports 111 und 2049 zu öffnen, um bestimmte Bibliotheksinstallationen zu ermöglichen.

Wichtig

Azure Databricks ist ein Erstanbieterdienst von Microsoft Azure, der in der öffentlichen Global Azure-Cloudinfrastruktur bereitgestellt wird. Die gesamte Kommunikation zwischen den Dienstkomponenten einschließlich der zwischen den öffentlichen IP-Adressen in der Steuerungsebene und der Kundencomputeebene verbleibt im Netzwerkbackbone von Microsoft Azure. Siehe auch Globales Microsoft-Netzwerk.

Erweitern der VNet-Kapazität

Wenn das VNet Ihres Arbeitsbereichs über unzureichende Kapazität für aktive Clusterknoten verfügt, haben Sie zwei Optionen:

  • VNet-Konfiguration aktualisieren: Dieses Feature befindet sich in der öffentlichen Vorschau. Siehe Aktualisieren der Netzwerkkonfiguration des Arbeitsbereichs.
  • Erweitern Sie Ihren aktuellen CIDR-Bereich: Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um eine Erhöhung des Arbeitsbereichs-Subnetz-CIDR-Bereich anzufordern.