Compartilhar via


Verificar o estado de saúde do cluster AKS

Este artigo faz parte de uma série. Comece com a visão geral.

Para iniciar sua prática de triagem, avalie a integridade geral do cluster e da rede.

Ferramentas

Há muitas ferramentas e recursos que você pode usar para diagnosticar e resolver problemas no cluster do AKS (Serviço de Kubernetes do Azure).

No portal do Azure, selecione o recurso de cluster do AKS. Essas ferramentas e recursos estão no painel de navegação.

  • Diagnosticar e resolver problemas: você pode usar essa ferramenta para ajudar a identificar e resolver problemas em seu cluster.

  • Saúde do recurso: você pode usar esta ferramenta para ajudar a diagnosticar e obter suporte para problemas de serviço que podem afetar seus recursos do Azure. Essa ferramenta fornece informações sobre o status de integridade atual e passado de seus recursos.

  • Recomendações do Assistente: o Assistente do Azure atua como um consultor de nuvem personalizado, orientando você a seguir as práticas recomendadas para otimizar suas implantações do Azure. Você pode usar o Assistente para analisar sua telemetria de uso e configuração de recursos. O Assistente sugere soluções para que você possa aprimorar o custo-benefício, o desempenho, a confiabilidade e a segurança.

  • Logs: use esse recurso para acessar os logs de cluster e as métricas armazenadas no workspace do Log Analytics . Você pode monitorar e analisar os logs e as métricas do cluster para fornecer insights e melhorar a solução de problemas.

Use essas ferramentas e recursos para que você possa diagnosticar e resolver problemas com eficiência, otimizar a implantação do cluster do AKS e monitorar a integridade e o desempenho dos recursos do Azure.

Diagnosticar e resolver problemas

O recurso diagnosticar e resolver problemas fornece um conjunto abrangente de ferramentas para ajudar na identificação e resolução de vários problemas relacionados ao cluster. Selecione a categoria de solução de problemas que é a mais relevante para o problema.

Captura de tela que mostra a página Diagnosticar e resolver problemas.

Para verificar a integridade do cluster, você pode escolher:

  • Disponibilidade e desempenho do painel de controle e cluster: verifique se há problemas de disponibilidade ou limitação de serviço que afetam a integridade do cluster.
  • Problemas de conectividade: verifique se há erros com a resolução DNS (Sistema de Nomes de Domínio) do cluster ou se a rota de comunicação de saída tem problemas de conectividade.

Saúde dos recursos

Use o recurso de integridade do recurso para identificar e obter suporte para problemas de cluster e problemas de serviço que podem afetar a integridade do cluster. Configure um alerta de recurso para que você possa monitorar facilmente a integridade do cluster. A funcionalidade de integridade do recurso fornece um relatório sobre a integridade atual e passada do cluster. Há quatro estados de saúde:

  • Disponível: esse status indica que não há eventos detectados que afetem a integridade do cluster. Se o cluster tiver se recuperado do tempo de inatividade não planejado nas últimas 24 horas, uma notificação resolvida recentemente será exibida.

  • Indisponível: este status indica que um evento de plataforma ou não plataforma em andamento que afeta a saúde do cluster foi detectado.

  • Desconhecido: esse status indica que o recurso não recebe informações sobre o recurso há mais de 10 minutos. Esse status geralmente aparece quando uma máquina virtual é desalocada. Esse status não é uma indicação definitiva do estado do recurso, mas pode ser um ponto de dados útil para solução de problemas.

  • Degradado: esse status indica que há uma perda de desempenho para o cluster, mas o cluster ainda está disponível para uso.

A captura de tela a seguir mostra a visão geral da integridade do recurso.

Captura de tela que mostra a visão geral da integridade do recurso do AKS.

Para obter mais informações, consulte a visão geral do Azure Resource Health.

Conselheiro

O Assistente fornece recomendações acionáveis para ajudá-lo a otimizar seus clusters do AKS para confiabilidade, segurança, excelência operacional e eficiência de desempenho. Você pode usar o Assistente para melhorar proativamente o desempenho do cluster e evitar possíveis problemas. Selecione uma recomendação para obter informações detalhadas sobre como otimizar seu cluster.

Captura de tela que mostra o resultado do Assistente para AKS com ações.

A captura de tela a seguir mostra os recursos para a recomendação selecionada.

Captura de tela que mostra o exemplo de resultado 2 do Advisor para AKS. Para obter mais informações, consulte Visão geral do Advisor.

Análise de Logs

O Log Analytics fornece insights sobre a integridade do cluster. Para acessar o workspace do Log Analytics, acesse o cluster do AKS e selecione Logs no painel de navegação.

Você pode escolher consultas predefinidas para analisar a integridade do cluster.

Captura de tela que mostra consultas.

Use consultas internas para consultar logs e métricas coletados no workspace do Log Analytics. A lista a seguir descreve as funções de algumas das consultas nas categorias de disponibilidade, logs de contêiner e diagnóstico.

  • Disponibilidade

    • Consulta Status de preparação por nó: exibir a contagem de todos os nós no cluster pelo status de preparação.

    • Consulta Listar toda a contagem de pods com fase: exibir a contagem de todos os pods pela fase, como falha, pendente, desconhecida, em execução ou bem-sucedida.

  • Logs de contêiner

    • Consulta Localizar um valor na Tabela de Logs de Contêineres: localizar linhas na tabela ContainerLogs em que o LogEntry tem um parâmetro de cadeia de caracteres especificado.

    • Consulta Listar logs de contêiner por namespace: exibir logs de contêiner dos namespaces no cluster.

  • Diagnóstico

    • Consulta Logs do Dimensionador Automático de Cluster: consultar logs do dimensionador automático de cluster. Essa consulta pode fornecer informações sobre por que o cluster aumenta ou reduz inesperadamente.

    • Consulta Logs de servidor de API do Kubernetes: consultar logs do servidor de API do Kubernetes.

    • Consulta de inventário de imagem: listar todas as imagens de contêiner e seu status.

    • Consulta Leitura de disco Prometheus por segundo por nó: exibir métricas de leitura do disco Prometheus do namespace padrão do Kubernetes como um gráfico de tempo.

    • Crescimento médio do uso da CPU por instância na última semana consulta: mostrar o crescimento médio da CPU por instância na semana passada, em ordem decrescente.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.

Autores principais:

Outro colaborador:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.