Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo fornisce risorse che è possibile usare nel caso in cui sia necessario risolvere i problemi relativi al comportamento di calcolo nell'area di lavoro. Gli argomenti di questo articolo riguardano i problemi di avvio del calcolo.
Per altri articoli sulla risoluzione dei problemi, vedere:
- Debug con l'interfaccia utente di Apache Spark
- Diagnosticare i problemi di costo e prestazioni usando l'interfaccia utente di Spark
- Gestione di query di grandi dimensioni nei flussi di lavoro interattivi.
Un nuovo ambiente di calcolo non risponde o "la rete del piano di calcolo non è configurata correttamente" errore del registro eventi
Problema: dopo la corretta distribuzione dell'area di lavoro, il primo calcolo di test non risponde. Dopo circa 20-30 minuti, se si controlla il registro eventi di calcolo, viene visualizzato un messaggio di errore simile al seguente:
The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …
Causa: il messaggio di errore precedente indica che il routing o il firewall non è corretto. Azure Databricks ha richiesto istanze di macchina virtuale per un nuovo calcolo, ma ha rilevato un lungo ritardo in attesa che l'istanza della macchina virtuale venga avviata e si connetta al piano di controllo. Il gestore di calcolo termina le istanze e segnala questo errore.
Correzione consigliata: la configurazione di rete deve consentire alle istanze del nodo di calcolo di connettersi correttamente al piano di controllo di Databricks. Per una tecnica di risoluzione dei problemi più rapida rispetto all'uso di un ambiente di calcolo, è possibile distribuire un'istanza di macchina virtuale in una delle subnet dell'area di lavoro ed eseguire passaggi tipici per la risoluzione dei problemi di rete, ad nc
esempio , ping
telnet
, o traceroute
.
Consultare gli indirizzi del piano di controllo di Azure Databricks per domini di accesso, indirizzi IP e CNAME di inoltro in base all'area. Per l'archiviazione degli artefatti, assicurarsi che sia presente un percorso di rete funzionante per l'archiviazione blob di Azure.
L'esempio seguente usa l'area westus
di Azure :
# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443
# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443
# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443
# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306
# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443
Se i comandi precedenti restituiscono correttamente, il percorso di rete potrebbe essere configurato correttamente, ma potrebbe verificarsi un altro problema se si usa un firewall. Il firewall potrebbe avere un'ispezione approfondita dei pacchetti, un'ispezione SSL o un altro elemento che causa l'esito negativo dei comandi di Azure Databricks. Usando un'istanza di macchina virtuale nella subnet di Azure Databricks, eseguire il comando seguente, sostituendo <token>
con il token di accesso personale e <workspace-url>
con l'URL per l'area di lavoro:
curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions
Se la richiesta precedente ha esito negativo, eseguire di nuovo il comando con l'opzione per rimuovere la -k
verifica SSL. Se funziona, il firewall causa un problema con i certificati SSL.
Esaminare i certificati SSL eseguendo il comando seguente, sostituendo <workspace-url>
con l'URL per l'area di lavoro:
openssl s_client -showcerts -connect <workspace-url>:443
Il comando precedente mostra il codice restituito e i certificati di Azure Databricks. Se restituisce un errore, il firewall potrebbe non essere configurato correttamente.
Si noti che i problemi SSL non sono problemi del livello di rete. La visualizzazione del traffico nel firewall non mostra questi problemi SSL. L'esame delle richieste di origine e di destinazione funziona come previsto.
I problemi relativi all'uso del metastore o del registro eventi di calcolo includono eventi METASTORE_DOWN.
Problema: l'area di lavoro sembra essere configurata ed è possibile configurare il calcolo, ma si hanno METASTORE_DOWN
eventi nel registro eventi di calcolo o il metastore non sembra funzionare.
Correzione consigliata: verificare se si usa un web application firewall (WAF) come il proxy Squid. I membri di calcolo devono connettersi a diversi servizi che non funzionano su un WAF.