Condividi tramite


Risolvere i problemi di elaborazione

Questo articolo fornisce risorse che è possibile usare nel caso in cui sia necessario risolvere i problemi relativi al comportamento di calcolo nell'area di lavoro. Gli argomenti di questo articolo riguardano i problemi di avvio del calcolo.

Per altri articoli sulla risoluzione dei problemi, vedere:

Un nuovo ambiente di calcolo non risponde o "la rete del piano di calcolo non è configurata correttamente" errore del registro eventi

Problema: dopo la corretta distribuzione dell'area di lavoro, il primo calcolo di test non risponde. Dopo circa 20-30 minuti, se si controlla il registro eventi di calcolo, viene visualizzato un messaggio di errore simile al seguente:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Causa: il messaggio di errore precedente indica che il routing o il firewall non è corretto. Azure Databricks ha richiesto istanze di macchina virtuale per un nuovo calcolo, ma ha rilevato un lungo ritardo in attesa che l'istanza della macchina virtuale venga avviata e si connetta al piano di controllo. Il gestore di calcolo termina le istanze e segnala questo errore.

Correzione consigliata: la configurazione di rete deve consentire alle istanze del nodo di calcolo di connettersi correttamente al piano di controllo di Databricks. Per una tecnica di risoluzione dei problemi più rapida rispetto all'uso di un ambiente di calcolo, è possibile distribuire un'istanza di macchina virtuale in una delle subnet dell'area di lavoro ed eseguire passaggi tipici per la risoluzione dei problemi di rete, ad ncesempio , pingtelnet, o traceroute.

Consultare gli indirizzi del piano di controllo di Azure Databricks per domini di accesso, indirizzi IP e CNAME di inoltro in base all'area. Per l'archiviazione degli artefatti, assicurarsi che sia presente un percorso di rete funzionante per l'archiviazione blob di Azure.

L'esempio seguente usa l'area westusdi Azure :

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Se i comandi precedenti restituiscono correttamente, il percorso di rete potrebbe essere configurato correttamente, ma potrebbe verificarsi un altro problema se si usa un firewall. Il firewall potrebbe avere un'ispezione approfondita dei pacchetti, un'ispezione SSL o un altro elemento che causa l'esito negativo dei comandi di Azure Databricks. Usando un'istanza di macchina virtuale nella subnet di Azure Databricks, eseguire il comando seguente, sostituendo <token> con il token di accesso personale e <workspace-url> con l'URL per l'area di lavoro:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Se la richiesta precedente ha esito negativo, eseguire di nuovo il comando con l'opzione per rimuovere la -k verifica SSL. Se funziona, il firewall causa un problema con i certificati SSL.

Esaminare i certificati SSL eseguendo il comando seguente, sostituendo <workspace-url> con l'URL per l'area di lavoro:

openssl s_client -showcerts -connect <workspace-url>:443

Il comando precedente mostra il codice restituito e i certificati di Azure Databricks. Se restituisce un errore, il firewall potrebbe non essere configurato correttamente.

Si noti che i problemi SSL non sono problemi del livello di rete. La visualizzazione del traffico nel firewall non mostra questi problemi SSL. L'esame delle richieste di origine e di destinazione funziona come previsto.

I problemi relativi all'uso del metastore o del registro eventi di calcolo includono eventi METASTORE_DOWN.

Problema: l'area di lavoro sembra essere configurata ed è possibile configurare il calcolo, ma si hanno METASTORE_DOWN eventi nel registro eventi di calcolo o il metastore non sembra funzionare.

Correzione consigliata: verificare se si usa un web application firewall (WAF) come il proxy Squid. I membri di calcolo devono connettersi a diversi servizi che non funzionano su un WAF.