Share via


Verbinden des Azure Databricks-Arbeitsbereichs mit Ihrem lokalen Netzwerk

In diesem Artikel wird erläutert, wie Sie eine Verbindung zwischen Ihrem Azure Databricks-Arbeitsbereich und einem lokalen Netzwerk herstellen. Der Datenverkehr wird anhand der folgenden Hub-and-Spoke-Topologie über ein virtuelles Transitnetzwerk zum lokalen Netzwerk umgeleitet.

Virtual network deployment

Wenden Sie sich an die für Sie zuständigen Microsoft- und Databricks-Teams, wenn Sie im Anschluss an diesen Leitfaden noch weitere Hilfe benötigen.

Anforderungen

Ihr Azure Databricks-Arbeitsbereich muss in Ihrem eigenen virtuellen Netzwerk bereitgestellt werden, was auch als VNet-Injektion bezeichnet wird.

Schritt 1: Einrichten eines virtuellen Transitnetzwerks mit einem virtuellen Azure-Netzwerkgateway

Sie benötigen ein virtuelles Azure-Netzwerkgateway (ExpressRoute oder VPN) in einem virtuellen Transitnetzwerk, das mit einer der folgenden Methoden konfiguriert wurde. Wenn Sie bereits über ein geeignetes Gateway verfügen, fahren Sie mit dem Schritt Peering des virtuellen Azure Databricks-Netzwerks mit dem virtuellen Transitnetzwerk fort.

Wenn Sie ExpressRoute bereits zwischen Ihrem lokalen Netzwerk und Azure eingerichtet haben, befolgen Sie die Schritte unter Konfigurieren eines virtuellen Netzwerkgateways für ExpressRoute mit dem Azure-Portal.

Befolgen Sie andernfalls Schritt 1 bis Schritt 5 unter Konfigurieren einer VNet-zu-VNet-VPN-Gatewayverbindung über das Azure-Portal.

Wenden Sie sich an das für Sie zuständige Microsoft-Team, wenn Sie Hilfe benötigen.

Schritt 2: Peering des virtuellen Azure Databricks-Netzwerks mit dem Transit-VNet

Wenn sich Ihr Azure Databricks-Arbeitsbereich im gleichen VNet wie das virtuelle Netzwerkgateway befindet, fahren Sie mit Erstellen von benutzerdefinierten Routen und Zuordnen zu Ihren Azure Databricks-VNet-Subnetzen fort.

Befolgen Sie andernfalls die Anweisungen unter Peering virtueller Netzwerke, um das Azure Databricks-VNet per Peering mit dem virtuellen Transitnetzwerk zu verbinden. Wählen Sie dabei die folgenden Optionen aus:

  • Remotegateways verwenden für das VNet in Azure Databricks
  • Gatewaytransit zulassen für das virtuelle Transitnetzwerk

Weitere Informationen finden Sie unter Erstellen eines Peerings.

Hinweis

Wenn Ihre lokale Netzwerkverbindung mit Azure Databricks nicht mit den oben genannten Einstellungen funktioniert, können Sie auch die Option Weitergeleiteten Datenverkehr zulassen auf beiden Seiten des Peerings auswählen, um das Problem zu beheben.

Weitere Informationen zum Konfigurieren des VPN-Gatewaytransits für das Peering virtueller Netzwerke finden Sie unter Konfigurieren des VPN-Gatewaytransits für das Peering virtueller Netzwerke.

Schritt 3: Erstellen von benutzerdefinierten Routen und Zuordnen zu Ihren Azure Databricks-VNet-Subnetzen

Nachdem Sie das Peering zwischen dem Azure Databricks-VNet und dem virtuellen Transitnetzwerk eingerichtet haben, konfiguriert Azure automatisch alle Routen, die das virtuelle Transitnetzwerk verwenden. Die automatische Konfiguration enthält nicht die Rückroute von Clusterknoten zur Azure Databricks-Steuerungsebene. Sie müssen diese Routen manuell mithilfe benutzerdefinierter Routen definieren.

  1. Erstellen Sie eine Routingtabelle, und aktivieren Sie die BGP-Routenverteilung.

    Hinweis

    In einigen Fällen verursacht die BGP-Routenverteilung Fehler beim Überprüfen des Setups der lokalen Netzwerkverbindung. Als letztes Mittel können Sie die BGP-Routenverteilung deaktivieren.

  2. Fügen Sie benutzerdefinierte Routen mithilfe der Anweisungen unter Benutzerdefinierte Routen für die folgenden Dienste hinzu.

    Wenn die sichere Clusterkonnektivität (Secure Cluster Connectivity, SCC) für den Arbeitsbereich aktiviert ist, verwenden Sie die IP-Adresse des SCC-Relays anstelle der NAT-IP-Adresse der Steuerungsebene.

    `Source` Adresspräfix Typ des nächsten Hops
    Standard NAT-IP-Adresse der Steuerungsebene
    (nur, wenn SCC deaktiviert ist)
    Internet
    Standard IP-Adresse des SCC-Relays
    (nur, wenn SCC aktiviert ist)
    Internet
    Standard Webapp-IP Internet
    Standard IP-Adresse der erweiterten Infrastruktur Internet
    Standard IP-Adresse des Metastores Internet
    Standard IP-Adresse des Blobspeichers für Artefakte Internet
    Standard IP-Adresse des Protokollblobspeichers Internet
    Standard IP-Adresse des DBFS-Stammspeichers (ADLS) Internet
    Standard DBFS-Stammspeicher-IP (Blob) für Arbeitsbereiche, die vor dem 6. März 2023 erstellt wurden. Internet

    Um die IP-Adressen für jeden dieser Dienste abzurufen, befolgen Sie die Anweisungen unter Benutzerdefinierte Routeneinstellungen für Azure Databricks.

    Wenn die IP-basierte Route beim Validieren des Setups fehlschlägt, können Sie einen Dienstendpunkt für Microsoft.Storage erstellen, um sämtlichen DBFS-Stammspeicherdatenverkehr über den Azure-Backbone umzuleiten. Wenn Sie diesen Ansatz verwenden, müssen Sie keine benutzerdefinierten Routen für DBFS-Stammspeicher erstellen.

    Hinweis

    Um über Azure Databricks auf andere Azure-PaaS-Datendienste wie Cosmos DB oder Azure Synapse Analytics zugreifen zu können, müssen Sie der Routingtabelle benutzerdefinierte Routen für diese Dienste hinzufügen. Lösen Sie jeden Endpunkt mithilfe von nslookup oder eines entsprechenden Befehls in seine IP-Adresse auf.

  3. Ordnen Sie die Routingtabelle Ihren öffentlichen und privaten Azure Databricks-VNet-Subnetzen zu. Befolgen Sie dazu die Anweisungen unter Zuordnen einer Routingtabelle zu einem Subnetz.

    Nachdem die benutzerdefinierte Routingtabelle Ihren Azure Databricks-VNet-Subnetzen zugeordnet wurde, müssen Sie die Sicherheitsregeln für ausgehenden Datenverkehr in der Netzwerksicherheitsgruppe nicht mehr anpassen. Beispielsweise müssen Sie die Ausgangsregel nicht spezifischer definieren, da die Routen den tatsächlichen ausgehenden Datenverkehr steuern.

Schritt 4: Validieren des Setups

So überprüfen Sie das Setup:

  1. Erstellen Sie einen Cluster in Ihrem Azure Databricks-Arbeitsbereich.

    Wenn beim Erstellen eines Clusters ein Fehler auftritt, befolgen Sie die Setupanweisungen, und probieren Sie die alternativen Konfigurationsoptionen nach und nach aus.

    Wenn Sie immer noch keinen Cluster erstellen können, überprüfen Sie, ob die Routingtabelle alle erforderlichen benutzerdefinierten Routen enthält. Wenn Sie Dienstendpunkte anstelle von benutzerdefinierten Routen für ADLS Gen2 verwendet haben (für Arbeitsbereiche, die vor dem 6. März 2023 erstellt wurden, Azure Blob Storage), überprüfen Sie diese Endpunkte ebenfalls.

    Wenn Sie dennoch keinen Cluster erstellen können, wenden Sie sich an die für Sie zuständigen Microsoft- und Databricks-Teams, um Hilfe zu erhalten.

  2. Pingen Sie eine lokale IP-Adresse mithilfe des folgenden Befehls über ein Notebook:

    %sh
    ping <IP>
    

Weitere Anleitungen zur Problembehandlung finden Sie in diesen Ressourcen:

Optionale Konfigurationsschritte

Option: Weiterleiten des Azure Databricks-Datenverkehrs mithilfe eines virtuellen Geräts oder einer Firewall

Sie können den von Azure Databricks-Clusterknoten ausgehenden Datenverkehr mithilfe einer Firewall oder einer DLP-Appliance filtern, z. B. Azure Firewall, Palo Alto oder Barracuda. Auf diese Weise können Sie ausgehenden Datenverkehr überprüfen, um die Sicherheitsrichtlinien zu erfüllen und eine einzelne NAT-ähnliche öffentliche IP- oder CIDR-Adresse für alle Cluster zu einer Zulassungsliste hinzuzufügen.

Passen Sie diese Schritte nach Bedarf an Ihre Firewall oder DLP-Appliance an:

  1. Richten Sie mithilfe der Anweisungen unter Erstellen eines virtuellen Netzwerkgeräts ein virtuelles Gerät oder eine Firewall im virtuellen Transitnetzwerk ein.

    Wenn Sie eine separate Firewallkonfiguration für mehrere Arbeitsbereiche benötigen, können Sie die Firewall in einem geschützten oder DMZ-Subnetz im Azure Databricks-VNet erstellen, das von vorhandenen privaten und öffentlichen Subnetzen getrennt ist.

  2. Erstellen Sie in der benutzerdefinierten Routingtabelle eine zusätzliche Route zu 0.0.0.0/0.

  3. Wenn Sie den Ansatz mit einem geschützten oder DMZ-Subnetz verwenden, können Sie eine zusätzliche Routingtabelle erstellen, die ausschließlich dem DMZ-Subnetz zugeordnet ist. Erstellen Sie in dieser Routingtabelle eine Route zu 0.0.0.0.

    Legen Sie den nächsten Hop dieser Route auf „Internet“ fest, wenn der Datenverkehr für ein öffentliches Netzwerk bestimmt ist, oder auf „Virtuelles Netzwerkgateway“, wenn der Datenverkehr für ein lokales Netzwerk bestimmt ist.

  4. Konfigurieren Sie die Zulassungs- und Verweigerungsregeln für die Firewallappliance.

    Wenn Sie die Routen für Blob Storage entfernt haben, fügen Sie diese Routen der Zulassungsliste in der Firewall hinzu.

    Wenn Ihre Cluster von öffentlichen Repositorys abhängig sind, z. B. Betriebssystemrepositorys oder Containerregistrierungen, fügen Sie diese zur Zulassungsliste hinzu.

    Weitere Informationen zu Zulassungslisten finden Sie unter Benutzerdefinierte Routeneinstellungen für Azure Databricks.

Option: Konfigurieren von benutzerdefiniertem DNS

Sie können benutzerdefiniertes DNS für Azure Databricks-Arbeitsbereiche konfigurieren, die in Ihrem eigenen virtuellen Netzwerk bereitgestellt werden. Weitere Informationen zum Konfigurieren von benutzerdefiniertem DNS für ein virtuelles Azure-Netzwerk finden Sie in den folgenden Microsoft-Artikeln:

.. Wichtig: Um die IP-Adressen für Azure Artifacts aufzulösen, müssen Sie Ihr benutzerdefiniertes DNS so konfigurieren, dass diese Anforderungen an den rekursiven Azure-Resolver weitergeleitet werden.