Compartilhar via


Solução de problemas do Chaos Agent

Esta página fornece um guia consolidado para solucionar problemas relacionados ao Agente do Chaos usado no Azure Chaos Studio. Use este guia para diagnosticar problemas durante a instalação, verificar a conectividade de rede, interpretar mensagens de status do agente e resolver erros comuns.

Observação

Para obter instruções detalhadas de instalação, consulte a página Instalar e Configurar o Chaos Agent . Para obter detalhes de rede e segurança, consulte Link Privado e Segurança de Rede.


Problemas de instalação do agente

Se o Chaos Agent não for instalado ou parecer não estar íntegro, siga essas etapas de depuração:

  • Falha na implantação da extensão
    • Sintomas: a folha Extensões da VM (Máquina Virtual) mostra um status que não é Provisioning succeeded (por exemplo, Falha, Erro).
    • Etapas de solução de problemas:
      1. Verifique se a VM de destino atende aos pré-requisitos mínimos (sistema operacional com suporte automático, versão correta etc.). Consulte o suporte e a compatibilidade do sistema operacional.
      2. Confirme se uma identidade gerenciada atribuída pelo usuário está anexada à VM.
      3. Verifique o Log de Atividades no portal do Azure para ver se há erros relacionados à implantação da extensão.
      4. Se a VM fizer parte de um Conjunto de Dimensionamento de Máquinas Virtuais, verifique se a política de atualização do conjunto de dimensionamento não está definida como Manual. Se for, atualize as instâncias manualmente (usando az vmss update-instances) ou alterne para uma política Automática.
      5. Considere desinstalar e reinstalar a extensão usando a CLI do Azure ou o portal do Azure desabilitando e reabilitando falhas baseadas em agente em sua VM:
        az vm extension delete --resource-group <ResourceGroup> --vm-name <VMName> --name ChaosAgent
        az vm extension set --resource-group <ResourceGroup> --vm-name <VMName> --name ChaosAgent --publisher Microsoft.Azure.Chaos --version <version>
        

Problemas de conectividade de rede

Mesmo quando o agente está instalado, ele pode não se comunicar corretamente se a conectividade de rede for interrompida.

  • Sintomas:

    • O status do Handler do agente não aparece Ready.
    • Os logs indicam que não foi possível acessar o endpoint do serviço do agente do Chaos Studio.
  • Etapas de solução de problemas:

    1. Verificar acesso de saída:
      Certifique-se de que a VM tem acesso externo à rede ao endpoint de serviço do Chaos Agent, que segue o padrão:
      https://<region>.agents.chaos-prod.azure.com
      Substitua region pela região de implantação da VM.
    2. Verifique as configurações de NSG e firewall:
      a. Confirme se qualquer NSG (Grupo de Segurança de Rede) anexado à VM permite o tráfego HTTPS de saída (porta 443).
      b. A abordagem recomendada é permitir a marca de serviço ChaosStudio para tráfego de saída.
    3. Proxy e DNS personalizado:
      Se o ambiente usar um proxy ou configurações DNS personalizadas, verifique se essas configurações não estão bloqueando o acesso ao ponto de extremidade.
    4. Configuração de link privado:
      Para ambientes configurados com Link Privado do Azure, certifique-se de que: a. O Endpoint Privado está corretamente configurado e aprovado. b. A resolução de DNS é atualizada para que o domínio do serviço Chaos Agent seja resolvido para o IP do Ponto de extremidade privado. c. A configuração do agente é atualizada adequadamente.

Verificações de status e integridade do agente

O agente relata dois status principais na lâmina Extensões + aplicativos da VM:

  • Campo de status:

    • Provisioning succeeded: indica que a extensão foi implantada com êxito.
    • Qualquer outro status (por exemplo, Failed ou Error) sinaliza problemas de instalação.
  • Campo de status do controlador:

    • Ready: Indica que o agente está em execução e se comunicando com o serviço Chaos Studio.
    • NotReady ou um status vazio sugere que o agente não pode se conectar , geralmente devido a problemas de rede ou identidades configuradas incorretamente.

Como verificar logs do Agente

  • Windows:
    Abra o Visualizador de EventosLogs do WindowsAplicativo. Filtre pelo AzureChaosAgent de origem para exibir entradas de log relevantes.

  • Linux:
    Execute o seguinte comando para exibir os logs mais recentes do serviço do Chaos Agent:

    journalctl -u azure-chaos-agent --lines 50
    
    

Procure mensagens de erro indicando problemas de conectividade ou dependência.


Depuração de VM local do Chaos Agent

O agente de depuração registra no host

  • Depuração local do agente do Windows
    • O agente do Chaos está em execução como serviço Windows AzureChaosAgent
      • O código de serviço do Windows é executado no manipulador VMExtention
    • Localização do agente
      • O agente é instalado como Extensão de VM do Azure. A localização do agente normalmente está em C:\Packages\Plugins\Microsoft.Azure.Chaos.ChaosWindowsAgent\<version> . O diretório contém bibliotecas e AzureChaosAgent.exe e agentsettings.json.
    • Obter log do agente no host: o log do agente é enviado para o log de serviço do Windows.
      • Exemplo de comando do PowerShell para verificar as 50 linhas mais recentes do log do agente: '''Get-EventLog -LogName "Application" -Source "AzureChaosAgent" -Newest 50'''' .
    • Iniciar/Parar Agente no host
      • No PowerShell do Administrador, execute Start-Service AzureChaosAgent ou Stop-Service AzureChaosAgent
  • Depuração local do agente Linux
    • O agente de caos do Linux é gerenciado pelo Systemd.
    • Localização do agente
      • Se o Agente estiver em execução, você poderá localizar o executável do agente linux executando ps aux | grep chaos
    • Obter log do agente no host
      • Exemplo de comando bash para as 50 linhas mais recentes do log do agente: journalctl -u azure-chaos-agent --lines 50
    • Iniciar/Parar Agente no host
      • executar o comando systemctl start azure-chaos-agent bash ou systemctl stop azure-chaos-agent

Outros erros e soluções comuns

Alguns outros problemas e suas soluções para o Agente do Chaos.

Erros de credencial ou identidade

Mensagem de erro Causa Solução
"Falha ao registrar o agente devido a erro de credencial." A identidade gerenciada da VM não está configurada corretamente. Verifique se a VM tem a identidade gerenciada atribuída pelo usuário correta anexada e se ela tem as permissões necessárias. Consulte a página Instalar e Configurar o Chaos Agent para obter etapas detalhadas.

Pré-requisitos ausentes para execução de falhas

Mensagem de erro Causa Solução
"Falha ao registrar o agente devido a uma exceção de API." ou "Pré-requisitos de falha não atendidos" (por exemplo, stress-ng ausente no Linux) Dependências necessárias (como stress-ng) estão faltando. Tente desinstalar e reinstalar o agente do Chaos. Instale a dependência ausente na VM de destino. Por exemplo, no Debian/Ubuntu:

sudo apt-get install stress-ng

Consulte a página de suporte e compatibilidade do sistema operacional para obter mais detalhes.

Bloqueio de conectividade de rede

Mensagem de erro Causa Solução
O log do agente mostra que não consegue se conectar a https://<region>.agents.chaos-prod.azure.com. O tráfego de rede de saída está bloqueado. Atualize as regras do NSG para permitir o tráfego HTTPS para o ponto de extremidade de serviço do Agente do Chaos. Considere usar a marca de serviço ChaosStudio para regras de saída. Para ambientes com conexão privada, assegure-se de que o DNS resolve corretamente o IP do ponto de extremidade privado.

Tempo limite de extensão ou ExtensionHandlerFailed

Mensagem de erro Causa Solução
Erros de "ExtensionHandlerFailed" ou tempo limite no Log de Atividades. A extensão do agente não foi iniciada corretamente, possivelmente devido a problemas de configuração de rede ou de recursos. – Reinicie a VM e verifique a conectividade de rede.
- Verifique se há algum software de segurança interferindo que possa bloquear a extensão.
- Se persistente, reinstale a extensão usando a CLI do Azure (consulte a seção de solução de problemas de instalação).

Mais recursos