Compartilhar via


Solucionar problemas de computação

Este artigo fornece recursos que você pode usar caso precise solucionar problemas de comportamento de computação em seu workspace. Os tópicos deste artigo estão relacionados a problemas de inicialização da computação.

Para outros artigos de solução de problemas, consulte:

Usar o Assistente para depurar erros de ambiente de computação

O Assistente do Databricks pode ajudar a diagnosticar e sugerir correções para erros de instalação da biblioteca.

Na página Bibliotecas do ambiente de computação, um ícone de Brilho. O botão Diagnosticar erro aparece ao lado do nome do pacote com falha e no modal de detalhes que aparece quando você clica no pacote com falha. Clique no ícone Sparkle. Para diagnosticar o erro, use o Assistente para ajudá-lo a depurar. O Assistente diagnosticará o erro e sugerirá possíveis soluções.

Use o Assistente para depurar erros de instalação da biblioteca de computação.

Você também pode usar o Assistente para depurar erros de ambiente de computação em um notebook. Consulte erros de ambiente de depuração.

Uma nova computação não responde ou “a rede do plano de computação é um erro de log de eventos configurado” incorretamente

Problema: após o que parece ser uma implantação bem-sucedida do espaço de trabalho, seu primeiro teste de computação não responde. Após aproximadamente 20 a 30 minutos, se você verificar o log de eventos do cluster, verá uma mensagem de erro como a seguinte:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Cause: a mensagem de erro previamente apresentada indica que o roteamento ou o firewall está incorreto. O Azure Databricks solicitou instâncias de VM para uma nova computação, mas encontrou um longo atraso aguardando que a instância da VM inicializasse e se conectasse ao plano de controle. O gerenciador de computação encerra as instâncias e relata esse erro.

Correção recomendada: sua configuração de rede deve permitir que as instâncias de nó do computador se conectem com êxito ao plano de controle do Databricks. Para obter uma técnica de solução de problemas mais rápida do que usar uma computação, você pode implantar uma instância de VM em uma das sub-redes do workspace e executar etapas típicas de solução de problemas de rede, como nc, ping, telnet ou traceroute.

Consulte os endereços do painel de controle do Azure Databricks para domínios de acesso, IPs e CNAMEs de retransmissão por região. Para o Armazenamento de Artefatos, verifique se há um caminho de rede bem-sucedido para o armazenamento de blobs do Azure.

O exemplo a seguir utiliza a região westus do Azure:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Se os comandos anteriores retornarem corretamente, o caminho de rede pode estar configurado corretamente, mas pode existir outro problema se você estiver utilizando um firewall. O firewall pode ter inspeção profunda de pacotes, inspeção SSL ou qualquer outra coisa que faça com que os comandos do Azure Databricks falhem. Utilizando uma instância de VM na sub-rede do Azure Databricks, execute o seguinte comando, substituindo <token> por seu token de acesso pessoal e <workspace-url> pela URL do seu workspace do Azure Databricks:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Se a solicitação anterior falhou, execute o comando novamente com a opção -k para remover a verificação SSL. Se isso funcionar, então o firewall estará causando um problema com os certificados SSL.

Verifique os certificados SSL executando o seguinte comando, substituindo <workspace-url> pela URL de seu espaço de trabalho:

openssl s_client -showcerts -connect <workspace-url>:443

O comando previamente mostra o código de retorno e os certificados do Azure Databricks. Se ele retornar um erro, seu firewall pode estar mal configurado.

Observe que os problemas de SSL não são problemas da camada de rede. Exibir o tráfego no firewall não mostra esses problemas de SSL. A análise das solicitações de origem e destino está funcionando conforme o esperado.

Problemas ao usar o metastore ou o log de eventos de computação incluem eventos METASTORE_DOWN

Problema: seu workspace parece estar configurado e você pode configurar a computação, mas você tem METASTORE_DOWN eventos no log de eventos de computação ou seu metastore não parece funcionar.

Correção recomendada: confirme se você está usando um Firewall de Aplicativo Web (WAF) como o proxy do Squid. Os membros de computação devem se conectar a vários serviços que não funcionam por meio de um WAF.