Partilhar via


Solucionar problemas de computação

Este artigo fornece recursos que você pode usar caso precise solucionar problemas de comportamento de computação em seu espaço de trabalho. Os tópicos deste artigo estão relacionados a problemas de inicialização de computação.

Para outros artigos de solução de problemas, consulte:

Usar o Assistente para depurar erros de ambiente de computação

O Databricks Assistant pode ajudar a diagnosticar e sugerir correções para erros de instalação da biblioteca.

Na página Bibliotecas da computação, um ícone do Sparkle. O botão Diagnosticar erro aparece ao lado do nome do pacote com falha e no modal de detalhes que aparece quando você clica no pacote com falha. Clique no ícone de brilho. Diagnosticar o erro para que o Assistente o ajude a depurar. O Assistente irá diagnosticar o erro e sugerir possíveis soluções.

Use o Assistente para depurar erros de instalação da biblioteca de computação.

Você também pode usar o Assistente para depurar erros de ambiente de computação em um notebook. Consulte Depurar erros de ambiente.

Uma nova computação não responde ou erro de log de eventos "rede de plano de computação está configurada incorretamente"

Problema: após o que parece ser uma implantação bem-sucedida do espaço de trabalho, sua primeira computação de teste não responde. Após aproximadamente 20 a 30 minutos, se você verificar o log de eventos de computação, verá uma mensagem de erro como a seguinte:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Causa: A mensagem de erro anterior indica que o roteamento ou o firewall está incorreto. O Azure Databricks solicitou instâncias de VM para uma nova computação, mas encontrou um longo atraso aguardando que a instância da VM inicializasse e se conectasse ao plano de controle. O gerenciador de computação encerra as instâncias e relata esse erro.

Correção recomendada: Sua configuração de rede deve permitir que as instâncias do nó de computação se conectem com êxito ao plano de controle Databricks. Para obter uma técnica de solução de problemas mais rápida do que usar uma computação, você pode implantar uma instância de VM em uma das sub-redes do espaço de trabalho e executar etapas típicas de solução de problemas de rede, como nc, ping, telnetou traceroute.

Consulte Endereços de plano de controle do Azure Databricks para domínios de acesso, IPs e CNAMEs de retransmissão por região. Para o Armazenamento de Artefatos, verifique se há um caminho de rede bem-sucedido para o armazenamento de blobs do Azure.

O exemplo a seguir usa a região westusdo Azure :

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Se os comandos anteriores retornarem corretamente, o caminho de rede pode estar configurado corretamente, mas pode haver outro problema se você estiver usando um firewall. O firewall pode ter inspeção profunda de pacotes, inspeção SSL ou algo mais que faça com que os comandos do Azure Databricks falhem. Usando uma instância de VM na sub-rede do Azure Databricks, execute o seguinte comando, substituindo <token> pelo seu token de acesso pessoal e <workspace-url> pela URL do seu espaço de trabalho:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Se a solicitação anterior falhar, execute o comando novamente com a opção para remover a -k verificação SSL. Se isso funcionar, o firewall está causando um problema com certificados SSL.

Observe os certificados SSL executando o seguinte comando, substituindo <workspace-url> pela URL do seu espaço de trabalho:

openssl s_client -showcerts -connect <workspace-url>:443

O comando anterior mostra o código de retorno e os certificados do Azure Databricks. Se ele retornar um erro, seu firewall pode estar configurado incorretamente.

Observe que os problemas de SSL não são problemas de camada de rede. A visualização do tráfego no firewall não mostra esses problemas de SSL. Examinar as solicitações de origem e destino funciona conforme o esperado.

Problemas ao usar seu metastore ou log de eventos de computação incluem eventos METASTORE_DOWN

Problema: seu espaço de trabalho parece estar configurado e você pode configurar a computação, mas você tem METASTORE_DOWN eventos em seu log de eventos de computação ou seu metastore parece não funcionar.

Correção recomendada: confirme se você usa um Web Application Firewall (WAF) como o proxy Squid. Os membros de computação devem se conectar a vários serviços que não funcionam em um WAF.