Verbinden des Azure Databricks-Arbeitsbereichs mit Ihrem lokalen Netzwerk
In diesem Artikel wird erläutert, wie Sie eine Verbindung zwischen Ihrem Azure Databricks-Arbeitsbereich und einem lokalen Netzwerk herstellen. Der Datenverkehr wird anhand der folgenden Hub-and-Spoke-Topologie über ein virtuelles Transitnetzwerk zum lokalen Netzwerk umgeleitet.
Wenden Sie sich an die für Sie zuständigen Microsoft- und Databricks-Teams, wenn Sie im Anschluss an diesen Leitfaden noch weitere Hilfe benötigen.
Anforderungen
Ihr Azure Databricks-Arbeitsbereich muss in Ihrem eigenen virtuellen Netzwerk bereitgestellt werden, was auch als VNet-Injektion bezeichnet wird.
Schritt 1: Einrichten eines virtuellen Transitnetzwerks mit einem virtuellen Azure-Netzwerkgateway
Sie benötigen ein virtuelles Azure-Netzwerkgateway (ExpressRoute oder VPN) in einem virtuellen Transitnetzwerk, das mit einer der folgenden Methoden konfiguriert wurde. Wenn Sie bereits über ein geeignetes Gateway verfügen, fahren Sie mit dem Schritt Peering des virtuellen Azure Databricks-Netzwerks mit dem virtuellen Transitnetzwerk fort.
Wenn Sie ExpressRoute bereits zwischen Ihrem lokalen Netzwerk und Azure eingerichtet haben, befolgen Sie die Schritte unter Konfigurieren eines virtuellen Netzwerkgateways für ExpressRoute mit dem Azure-Portal.
Befolgen Sie andernfalls Schritt 1 bis Schritt 5 unter Konfigurieren einer VNet-zu-VNet-VPN-Gatewayverbindung über das Azure-Portal.
Wenden Sie sich an das für Sie zuständige Microsoft-Team, wenn Sie Hilfe benötigen.
Schritt 2: Peering des virtuellen Azure Databricks-Netzwerks mit dem Transit-VNet
Wenn sich Ihr Azure Databricks-Arbeitsbereich im gleichen VNet wie das virtuelle Netzwerkgateway befindet, fahren Sie mit Erstellen von benutzerdefinierten Routen und Zuordnen zu Ihren Azure Databricks-VNet-Subnetzen fort.
Befolgen Sie andernfalls die Anweisungen unter Peering virtueller Netzwerke, um das Azure Databricks-VNet per Peering mit dem virtuellen Transitnetzwerk zu verbinden. Wählen Sie dabei die folgenden Optionen aus:
- Remotegateways verwenden für das VNet in Azure Databricks
- Gatewaytransit zulassen für das virtuelle Transitnetzwerk
Weitere Informationen finden Sie unter Erstellen eines Peerings.
Hinweis
Wenn Ihre lokale Netzwerkverbindung mit Azure Databricks nicht mit den oben genannten Einstellungen funktioniert, können Sie auch die Option Weitergeleiteten Datenverkehr zulassen auf beiden Seiten des Peerings auswählen, um das Problem zu beheben.
Weitere Informationen zum Konfigurieren des VPN-Gatewaytransits für das Peering virtueller Netzwerke finden Sie unter Konfigurieren des VPN-Gatewaytransits für das Peering virtueller Netzwerke.
Schritt 3: Erstellen von benutzerdefinierten Routen und Zuordnen zu Ihren Azure Databricks-VNet-Subnetzen
Nachdem Sie das Peering zwischen dem Azure Databricks-VNet und dem virtuellen Transitnetzwerk eingerichtet haben, konfiguriert Azure automatisch alle Routen, die das virtuelle Transitnetzwerk verwenden. Die automatische Konfiguration enthält nicht die Rückroute von Clusterknoten zur Azure Databricks-Steuerungsebene. Sie müssen diese Routen manuell mithilfe benutzerdefinierter Routen definieren.
Erstellen Sie eine Routingtabelle, und aktivieren Sie die BGP-Routenverteilung.
Hinweis
In einigen Fällen verursacht die BGP-Routenverteilung Fehler beim Überprüfen des Setups der lokalen Netzwerkverbindung. Als letztes Mittel können Sie die BGP-Routenverteilung deaktivieren.
Fügen Sie benutzerdefinierte Routen mithilfe der Anweisungen unter Benutzerdefinierte Routen für die folgenden Dienste hinzu.
Wenn die sichere Clusterkonnektivität (Secure Cluster Connectivity, SCC) für den Arbeitsbereich aktiviert ist, verwenden Sie die IP-Adresse des SCC-Relays anstelle der NAT-IP-Adresse der Steuerungsebene.
`Source` Adresspräfix Typ des nächsten Hops Standard NAT-IP-Adresse der Steuerungsebene
(nur, wenn SCC deaktiviert ist)Internet Standard IP-Adresse des SCC-Relays
(nur, wenn SCC aktiviert ist)Internet Standard Webapp-IP Internet Standard IP-Adresse des Metastores Internet Standard IP-Adresse des Blobspeichers für Artefakte Internet Standard IP-Adresse des Protokollblobspeichers Internet Standard Arbeitsbereichsspeicher-IP (ADLS) Internet Standard Arbeitsbereichsspeicher-IP (Blob) für Arbeitsbereiche, die vor dem 6. März 2023 erstellt wurden. Internet Standard Event Hubs-IP Internet Um die IP-Adressen für jeden dieser Dienste abzurufen, befolgen Sie die Anweisungen unter Benutzerdefinierte Routeneinstellungen für Azure Databricks.
Wenn die IP-basierte Route beim Validieren des Setups fehlschlägt, können Sie einen Dienstendpunkt für Microsoft.Storage erstellen, um sämtlichen Datenverkehr des Arbeitsbereichsspeichers über das Azure-Backbone umzuleiten. Wenn Sie diesen Ansatz verwenden, müssen Sie keine benutzerdefinierten Routen für Arbeitsbereichsspeicher erstellen.
Hinweis
Um über Azure Databricks auf andere Azure-PaaS-Datendienste wie Cosmos DB oder Azure Synapse Analytics zugreifen zu können, müssen Sie der Routingtabelle benutzerdefinierte Routen für diese Dienste hinzufügen. Lösen Sie jeden Endpunkt mithilfe von
nslookup
oder eines entsprechenden Befehls in seine IP-Adresse auf.Ordnen Sie die Routingtabelle Ihren öffentlichen und privaten Azure Databricks-VNet-Subnetzen zu. Befolgen Sie dazu die Anweisungen unter Zuordnen einer Routingtabelle zu einem Subnetz.
Nachdem die benutzerdefinierte Routingtabelle Ihren Azure Databricks-VNet-Subnetzen zugeordnet wurde, müssen Sie die Sicherheitsregeln für ausgehenden Datenverkehr in der Netzwerksicherheitsgruppe nicht mehr anpassen. Beispielsweise müssen Sie die Ausgangsregel nicht spezifischer definieren, da die Routen den tatsächlichen ausgehenden Datenverkehr steuern.
Schritt 4: Validieren des Setups
So überprüfen Sie das Setup:
Erstellen Sie einen Cluster in Ihrem Azure Databricks-Arbeitsbereich.
Wenn beim Erstellen eines Clusters ein Fehler auftritt, befolgen Sie die Setupanweisungen, und probieren Sie die alternativen Konfigurationsoptionen nach und nach aus.
Wenn Sie immer noch keinen Cluster erstellen können, überprüfen Sie, ob die Routingtabelle alle erforderlichen benutzerdefinierten Routen enthält. Wenn Sie Dienstendpunkte anstelle von benutzerdefinierten Routen für ADLS Gen2 verwendet haben (für Arbeitsbereiche, die vor dem 6. März 2023 erstellt wurden, Azure Blob Storage), überprüfen Sie diese Endpunkte ebenfalls.
Wenn Sie dennoch keinen Cluster erstellen können, wenden Sie sich an die für Sie zuständigen Microsoft- und Databricks-Teams, um Hilfe zu erhalten.
Pingen Sie eine lokale IP-Adresse mithilfe des folgenden Befehls über ein Notebook:
%sh ping <IP>
Weitere Anleitungen zur Problembehandlung finden Sie in diesen Ressourcen:
Optionale Konfigurationsschritte
Option: Weiterleiten des Azure Databricks-Datenverkehrs mithilfe eines virtuellen Geräts oder einer Firewall
Sie können den von Azure Databricks-Clusterknoten ausgehenden Datenverkehr mithilfe einer Firewall oder einer DLP-Appliance filtern, z. B. Azure Firewall, Palo Alto oder Barracuda. Auf diese Weise können Sie ausgehenden Datenverkehr überprüfen, um die Sicherheitsrichtlinien zu erfüllen und eine einzelne NAT-ähnliche öffentliche IP- oder CIDR-Adresse für alle Cluster zu einer Zulassungsliste hinzuzufügen.
Passen Sie diese Schritte nach Bedarf an Ihre Firewall oder DLP-Appliance an:
Richten Sie mithilfe der Anweisungen unter Erstellen eines virtuellen Netzwerkgeräts ein virtuelles Gerät oder eine Firewall im virtuellen Transitnetzwerk ein.
Wenn Sie eine separate Firewallkonfiguration für mehrere Arbeitsbereiche benötigen, können Sie die Firewall in einem geschützten oder DMZ-Subnetz im Azure Databricks-VNet erstellen, das von vorhandenen privaten und öffentlichen Subnetzen getrennt ist.
Erstellen Sie in der benutzerdefinierten Routingtabelle eine zusätzliche Route zu 0.0.0.0/0.
Legen Sie den nächsten Hop auf „Virtuelles Gerät“ fest.
Legen Sie die Adresse des nächsten Hops fest.
Entfernen Sie die in Schritt 3: Erstellen von benutzerdefinierten Routen und Zuordnen zu Ihren Azure Databricks-VNet-Subnetzen erstellten Routen nicht, sofern nicht die folgende Ausnahme vorliegt: Wenn der gesamte Blobdatenverkehr über die Firewall umgeleitet werden muss, können Sie die Routen für den Blobdatenverkehr entfernen.
Wenn Sie den Ansatz mit einem geschützten oder DMZ-Subnetz verwenden, können Sie eine zusätzliche Routingtabelle erstellen, die ausschließlich dem DMZ-Subnetz zugeordnet ist. Erstellen Sie in dieser Routingtabelle eine Route zu 0.0.0.0.
Legen Sie den nächsten Hop dieser Route auf „Internet“ fest, wenn der Datenverkehr für ein öffentliches Netzwerk bestimmt ist, oder auf „Virtuelles Netzwerkgateway“, wenn der Datenverkehr für ein lokales Netzwerk bestimmt ist.
Konfigurieren Sie die Zulassungs- und Verweigerungsregeln für die Firewallappliance.
Wenn Sie die Routen für Blob Storage entfernt haben, fügen Sie diese Routen der Zulassungsliste in der Firewall hinzu.
Wenn Ihre Cluster von öffentlichen Repositorys abhängig sind, z. B. Betriebssystemrepositorys oder Containerregistrierungen, fügen Sie diese zur Zulassungsliste hinzu.
Weitere Informationen zu Zulassungslisten finden Sie unter Benutzerdefinierte Routeneinstellungen für Azure Databricks.
Option: Konfigurieren von benutzerdefiniertem DNS
Sie können benutzerdefiniertes DNS für Azure Databricks-Arbeitsbereiche konfigurieren, die in Ihrem eigenen virtuellen Netzwerk bereitgestellt werden. Weitere Informationen zum Konfigurieren von benutzerdefiniertem DNS für ein virtuelles Azure-Netzwerk finden Sie in den folgenden Microsoft-Artikeln:
.. Wichtig: Um die IP-Adressen für Azure Artifacts aufzulösen, müssen Sie Ihr benutzerdefiniertes DNS so konfigurieren, dass diese Anforderungen an den rekursiven Azure-Resolver weitergeleitet werden.