Freigeben über


Behandeln von Computeproblemen

Dieser Artikel enthält Ressourcen, die Sie für das Ereignis verwenden können, das Sie für die Problembehandlung des Berechnungsverhaltens in Ihrem Arbeitsbereich benötigen. Die Themen in diesem Artikel beziehen sich auf die Berechnung von Startproblemen.

Weitere Artikel zur Problembehandlung finden Sie unter:

Verwenden des Assistenten zum Debuggen von Computeumgebungsfehlern

Der Databricks-Assistent kann beim Diagnostizieren und Vorschlagen von Korrekturen für Bibliotheksinstallationsfehler helfen.

Auf der Seite "Bibliotheken" der Berechnung erscheint ein Sparkle-Symbol. Die Schaltfläche "Fehler diagnostizieren" wird neben dem Namen des fehlgeschlagenen Pakets und in der Detailansicht angezeigt, die erscheint, wenn Sie auf das fehlgeschlagene Paket klicken. Klicken Sie auf das Sparkle-Symbol. Diagnostizieren Sie Fehler , um den Assistenten zu verwenden, um Sie beim Debuggen zu unterstützen. Der Assistent diagnostiziert den Fehler und schlägt mögliche Lösungen vor.

Verwenden Sie den Assistenten zum Debuggen von Installationsfehlern bei der Computebibliothek.

Sie können auch den Assistenten verwenden, um Computerumgebungsfehler in einem Notizbuch zu debuggen. Siehe Debugumgebungsfehler.

Ein neuer Rechner reagiert nicht oder der Fehler im Ereignisprotokoll lautet: „Das Netzwerk der Computer-Ebene ist falsch konfiguriert“.

Problem: Nach einer erfolgreichen Arbeitsbereichsbereitstellung reagiert die erste Testberechnung nicht. Nach ungefähr 20 bis 30 Minuten wird beim Überprüfen des Compute-Ereignisprotokolls eine Fehlermeldung wie die folgende angezeigt:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Ursache: Die vorherige Fehlermeldung gibt an, dass das Routing oder die Firewall falsch ist. Azure Databricks hat bei VM-Instanzen einen neuen Rechner angefordert, aber es hat lange gedauert, bis ein Bootstrapping für die VM-Instanz durchgeführt wurde und eine Verbindung mit der Steuerungsebene hergestellt wurde. Der Compute-Manager beendet die Instanzen und meldet diesen Fehler.

Empfohlene Lösung: Ihre Netzwerkkonfiguration muss es Compute-Knoteninstanzen ermöglichen, erfolgreich eine Verbindung mit der Databricks-Steuerungsebene herzustellen. Für eine schnellere Problembehandlungsmethode als die Verwendung eines Rechners können Sie eine VM-Instanz in einem der Arbeitsbereichssubnetze bereitstellen und typische Schritte zur Problembehandlung im Netzwerk ausführen (z. B. nc, ping, telnet oder traceroute).

Siehe Adressen der Azure Databricks-Steuerungsebene für Zugriffsdomänen, IPs und Relay-CNAMEs nach Region. Stellen Sie für den Artefaktspeicher sicher, dass ein erfolgreicher Netzwerkpfad zum Azure Blob Storage vorhanden ist.

Im folgenden Beispiel wird die Azure-Region westus verwendet:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Wenn die vorherigen Befehle ordnungsgemäß zurückgegeben werden, ist der Netzwerkpfad möglicherweise ordnungsgemäß konfiguriert, aber es gibt möglicherweise ein weiteres Problem, wenn Sie eine Firewall verwenden. Die Firewall kann eine umfassende Paketüberprüfung, SSL-Prüfung oder einen ähnlichen Vorgang durchführen, was dazu führt, dass bei Azure Databricks-Befehlen ein Fehler auftritt. Führen Sie mithilfe einer VM-Instanz im Azure Databricks-Subnetz den folgenden Befehl aus, und ersetzen Sie dabei <token> durch Ihr persönliches Zugriffstoken und <workspace-url> durch die URL für Ihren Arbeitsbereich:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Wenn bei der vorherigen Anforderung ein Fehler auftritt, führen Sie den Befehl noch mal mit der -k-Option zum Entfernen der SSL-Überprüfung aus. Wenn dies funktioniert, verursacht die Firewall ein Problem mit SSL-Zertifikaten.

Sehen Sie sich die SSL-Zertifikate an, indem Sie den folgenden Befehl ausführen, und ersetzen Sie dabei <workspace-url> durch die URL für Ihren Arbeitsbereich:

openssl s_client -showcerts -connect <workspace-url>:443

Der vorherige Befehl zeigt den Rückgabecode und die Azure Databricks-Zertifikate an. Wenn ein Fehler zurückgegeben wird, ist Ihre Firewall möglicherweise falsch konfiguriert.

Beachten Sie, dass SSL-Probleme keine Netzwerkebenenprobleme sind. Das Anzeigen von Datenverkehr in der Firewall zeigt diese SSL-Probleme nicht an. Die Quell- und Zielanforderungen funktioniert erwartungsgemäß.

Probleme bei der Verwendung Ihres Metastore- oder Compute-Ereignisprotokolls umfassen METASTORE_DOWN-Ereignisse

Problem: Ihr Arbeitsbereich scheint eingerichtet zu sein, und Sie können Rechenressourcen einrichten, aber Sie haben METASTORE_DOWN Ereignisse in Ihrem Compute-Ereignisprotokoll, oder Ihr Metastore scheint nicht zu funktionieren.

Empfohlene Lösung: Überprüfen Sie, ob Sie eine Web Application Firewall (WAF) wie einen Squid-Proxy verwenden. Computemember müssen eine Verbindung mit mehreren Diensten herstellen, die nicht über eine WAF funktionieren.