Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece recursos que você pode usar caso precise solucionar problemas de comportamento de computação em seu workspace. Os tópicos deste artigo estão relacionados a problemas de inicialização da computação.
Para outros artigos de solução de problemas, consulte:
- Depuração com a interface do usuário do Spark
- Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark
- Manipular consultas grandes em fluxos de trabalho interativos.
Usar o Assistente para depurar erros de ambiente de computação
O Assistente do Databricks pode ajudar a diagnosticar e sugerir correções para erros de instalação da biblioteca.
Na página Bibliotecas do ambiente de computação, um . O botão Diagnosticar erro aparece ao lado do nome do pacote com falha e no modal de detalhes que aparece quando você clica no pacote com falha. Clique no
Você também pode usar o Assistente para depurar erros de ambiente de computação em um notebook. Consulte erros de ambiente de depuração.
Uma nova computação não responde ou “a rede do plano de computação é um erro de log de eventos configurado” incorretamente
Problema: após o que parece ser uma implantação bem-sucedida do espaço de trabalho, seu primeiro teste de computação não responde. Após aproximadamente 20 a 30 minutos, se você verificar o log de eventos do cluster, verá uma mensagem de erro como a seguinte:
The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …
Cause: a mensagem de erro previamente apresentada indica que o roteamento ou o firewall está incorreto. O Azure Databricks solicitou instâncias de VM para uma nova computação, mas encontrou um longo atraso aguardando que a instância da VM inicializasse e se conectasse ao plano de controle. O gerenciador de computação encerra as instâncias e relata esse erro.
Correção recomendada: sua configuração de rede deve permitir que as instâncias de nó do computador se conectem com êxito ao plano de controle do Databricks. Para obter uma técnica de solução de problemas mais rápida do que usar uma computação, você pode implantar uma instância de VM em uma das sub-redes do workspace e executar etapas típicas de solução de problemas de rede, como nc, ping, telnet ou traceroute.
Consulte os endereços do painel de controle do Azure Databricks para domínios de acesso, IPs e CNAMEs de retransmissão por região. Para o Armazenamento de Artefatos, verifique se há um caminho de rede bem-sucedido para o armazenamento de blobs do Azure.
O exemplo a seguir utiliza a região westus do Azure:
# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443
# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443
# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443
# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306
# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443
Se os comandos anteriores retornarem corretamente, o caminho de rede pode estar configurado corretamente, mas pode existir outro problema se você estiver utilizando um firewall. O firewall pode ter inspeção profunda de pacotes, inspeção SSL ou qualquer outra coisa que faça com que os comandos do Azure Databricks falhem. Utilizando uma instância de VM na sub-rede do Azure Databricks, execute o seguinte comando, substituindo <token> por seu token de acesso pessoal e <workspace-url> pela URL do seu workspace do Azure Databricks:
curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions
Se a solicitação anterior falhou, execute o comando novamente com a opção -k para remover a verificação SSL. Se isso funcionar, então o firewall estará causando um problema com os certificados SSL.
Verifique os certificados SSL executando o seguinte comando, substituindo <workspace-url> pela URL de seu espaço de trabalho:
openssl s_client -showcerts -connect <workspace-url>:443
O comando previamente mostra o código de retorno e os certificados do Azure Databricks. Se ele retornar um erro, seu firewall pode estar mal configurado.
Observe que os problemas de SSL não são problemas da camada de rede. Exibir o tráfego no firewall não mostra esses problemas de SSL. A análise das solicitações de origem e destino está funcionando conforme o esperado.
Problemas ao usar o metastore ou o log de eventos de computação incluem eventos METASTORE_DOWN
Problema: seu workspace parece estar configurado e você pode configurar a computação, mas você tem METASTORE_DOWN eventos no log de eventos de computação ou seu metastore não parece funcionar.
Correção recomendada: confirme se você está usando um Firewall de Aplicativo Web (WAF) como o proxy do Squid. Os membros de computação devem se conectar a vários serviços que não funcionam por meio de um WAF.