Examinar a integridade do nó e do pod

2025-04-17

Este artigo faz parte de uma série. Comece com a visão geral.

Se as verificações de cluster que você executou na etapa anterior estiverem limpas, verifique a integridade dos nós de trabalho do Serviço Kubernetes do Azure (AKS). Siga as seis etapas neste artigo para verificar a integridade dos nós, determinar o motivo de um nó não íntegro e resolver o problema.

Etapa 1: Verifique a integridade dos nós de trabalho

Vários fatores podem contribuir para nós com problemas num cluster AKS. Uma razão comum é a quebra de comunicação entre o plano de controle e os nós. Essa falha de comunicação geralmente é causada por configurações incorretas nas regras de roteamento e firewall.

Ao configurar seu cluster AKS para roteamento definido pelo usuário, você deve configurar caminhos de saída por meio de um dispositivo virtual de rede (NVA) ou um firewall, como um firewall do Azure. Para resolver um problema de configuração incorreta, recomendamos que você configure o firewall para permitir as portas necessárias e os FQDNs (nomes de domínio totalmente qualificados) de acordo com as diretrizes de tráfego de saída do AKS.

Outra razão para nós não íntegros pode ser recursos inadequados de computação, memória ou armazenamento que criam pressões kubelet. Nesses casos, a ampliação dos recursos pode efetivamente resolver o problema.

Em um cluster AKS privado, problemas de resolução do Sistema de Nomes de Domínio (DNS) podem causar problemas de comunicação entre o plano de controle e os nós. Você deve verificar se o nome DNS do servidor de API do Kubernetes é resolvido para o endereço IP privado do servidor de API. A configuração incorreta de um servidor DNS personalizado é uma causa comum de falhas de resolução de DNS. Se você usar servidores DNS personalizados, certifique-se de especificá-los corretamente como servidores DNS na rede virtual onde os nós são provisionados. Confirme também que o servidor de API privado AKS pode ser resolvido através do servidor DNS personalizado.

Depois de resolver esses possíveis problemas relacionados à comunicação do plano de controle e à resolução de DNS, você pode efetivamente abordar e resolver problemas de integridade do nó em seu cluster AKS.

Você pode avaliar a integridade de seus nós usando um dos seguintes métodos.

Visualização de saúde dos contentores no Azure Monitor

Para visualizar a integridade de nós, pods de usuário e pods de sistema no seu cluster AKS, siga estas etapas:

No portal do Azure, aceda a Azure Monitor.
Na seção Informações do painel de navegação, selecione Contêineres.
Selecione Clusters monitorados para obter uma lista dos clusters AKS que estão sendo monitorados.
Escolha um cluster AKS na lista para visualizar a integridade dos nós, pods de usuário e pods de sistema.

Visualização de nós AKS

Para garantir que todos os nós no cluster AKS estejam no estado pronto, siga estas etapas:

No portal do Azure, vá para o cluster AKS.
Na seção Configurações do painel de navegação, selecione Pools de nós.
Selecione Nós.
Verifique se todos os nós estão no estado de prontidão.

Monitorização em cluster com Prometheus e Grafana

Se você implantou o Prometheus e o Grafana em seu cluster AKS, poderá usar o Painel de Detalhes do Cluster K8 para obter informações. Este painel mostra métricas de cluster Prometheus e apresenta informações vitais, como uso de CPU, uso de memória, atividade de rede e uso do sistema de arquivos. Ele também mostra estatísticas detalhadas para pods individuais, contêineres e serviços systemd .

No painel, selecione Condições do Nó para ver as métricas sobre a integridade e o desempenho do cluster. Você pode rastrear nós que possam ter problemas, como problemas com sua programação, a rede, a pressão do disco, a pressão da memória, a pressão da derivada integral proporcional (PID) ou o espaço em disco. Monitore essas métricas, para que você possa identificar e resolver proativamente quaisquer problemas potenciais que afetem a disponibilidade e o desempenho do seu cluster AKS.

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

Você pode usar painéis pré-criados para visualizar e analisar as métricas do Prometheus. Para fazer isso, você deve configurar seu cluster AKS para coletar métricas do Prometheus no serviço gerenciado do Monitor para Prometheus e conectar seu espaço de trabalho do Monitor a um espaço de trabalho do Azure Managed Grafana . Esses painéis fornecem uma visão abrangente do desempenho e da integridade do cluster Kubernetes.

Os painéis são provisionados na instância especificada do Azure Managed Grafana na pasta Managed Prometheus . Alguns painéis incluem:

Kubernetes / Recursos de computação / Cluster
Kubernetes / Recursos de computação / Namespace (Pods)
Kubernetes / Recursos de Computação / Nó (Pods)
Kubernetes / Recursos de computação / Pod
Kubernetes / Recursos de computação / Namespace (cargas de trabalho)
Kubernetes / Recursos de computação / Carga de trabalho
Kubernetes / Kubelet
Node Exporter / Método USE / Nó
Node Exporter / Nós
Kubernetes / Recursos de computação / Cluster (Windows)
Kubernetes / Recursos de computação / Namespace (Windows)
Kubernetes / Recursos de computação / Pod (Windows)
Kubernetes / Método USE / Cluster (Windows)
Kubernetes / Método USE / Nó (Windows)

Esses painéis integrados são amplamente utilizados na comunidade de código aberto para monitorar clusters Kubernetes com Prometheus e Grafana. Use esses painéis para ver métricas, como uso de recursos, integridade do pod e atividade de rede. Você também pode criar painéis personalizados que são adaptados às suas necessidades de monitoramento. Os painéis ajudam você a monitorar e analisar efetivamente as métricas do Prometheus em seu cluster AKS, o que permite otimizar o desempenho, solucionar problemas e garantir o bom funcionamento de suas cargas de trabalho do Kubernetes.

Você pode usar o painel Kubernetes / Recursos de computação / Nó (Pods) para ver as métricas dos nós do agente Linux. Você pode visualizar o uso da CPU, a cota da CPU, o uso da memória e a cota de memória para cada pod.

Se o cluster incluir nós de agente do Windows, você poderá usar o painel Kubernetes / Método USE / Nó (Windows) para visualizar as métricas do Prometheus coletadas desses nós. Este painel fornece uma visão abrangente do consumo de recursos e do desempenho dos nós Windows no seu cluster.

Aproveite esses painéis dedicados para que você possa monitorar e analisar facilmente métricas importantes relacionadas à CPU, memória e outros recursos nos nós de agente Linux e Windows. Essa visibilidade permite identificar possíveis gargalos, otimizar a alocação de recursos e garantir uma operação eficiente em todo o cluster AKS.

Etapa 2: Verificar a conectividade do plano de controle e do nó de trabalho

Se os nós de trabalho estiverem íntegros, você deverá examinar a conectividade entre o plano de controle AKS gerenciado e os nós de trabalho do cluster. O AKS permite a comunicação entre o servidor API do Kubernetes e kubelets de nós individuais através de um método de comunicação de túnel seguro. Esses componentes podem se comunicar mesmo se estiverem em redes virtuais diferentes. O túnel é protegido com criptografia mTLS (Mutual Transport Layer Security). O túnel primário que o AKS usa é chamado Konnectivity (anteriormente conhecido como apiserver-network-proxy). Certifique-se de que todas as regras de rede e FQDNs estejam em conformidade com as regras de rede do Azure necessárias.

Para verificar a conectividade entre o plano de controle AKS gerenciado e os nós de trabalho de cluster de um cluster AKS, você pode usar a ferramenta de linha de comando kubectl .

Para garantir que os pods do agente Konnectivity funcionem corretamente, execute o seguinte comando:

kubectl get deploy konnectivity-agent -n kube-system

Certifique-se de que os pods estão em um estado pronto.

Se houver um problema com a conectividade entre o plano de controlo e os nós de trabalho, estabeleça a conectividade depois de garantir que as regras de tráfego de saída necessárias para o AKS sejam permitidas.

Execute o seguinte comando para reiniciar os konnectivity-agent pods:

kubectl rollout restart deploy konnectivity-agent -n kube-system

Se o reiniciar dos pods não corrigir o problema de conexão, verifique os logs em busca de anomalias. Execute o seguinte comando para visualizar os logs dos pods konnectivity-agent:

kubectl logs -l app=konnectivity-agent -n kube-system --tail=50

Os logs devem mostrar a seguinte saída:

I1012 12:27:43.521795       1 options.go:102] AgentCert set to "/certs/client.crt".
I1012 12:27:43.521831       1 options.go:103] AgentKey set to "/certs/client.key".
I1012 12:27:43.521834       1 options.go:104] CACert set to "/certs/ca.crt".
I1012 12:27:43.521837       1 options.go:105] ProxyServerHost set to "sethaks-47983508.hcp.switzerlandnorth.azmk8s.io".
I1012 12:27:43.521841       1 options.go:106] ProxyServerPort set to 443.
I1012 12:27:43.521844       1 options.go:107] ALPNProtos set to [konnectivity].
I1012 12:27:43.521851       1 options.go:108] HealthServerHost set to
I1012 12:27:43.521948       1 options.go:109] HealthServerPort set to 8082.
I1012 12:27:43.521956       1 options.go:110] AdminServerPort set to 8094.
I1012 12:27:43.521959       1 options.go:111] EnableProfiling set to false.
I1012 12:27:43.521962       1 options.go:112] EnableContentionProfiling set to false.
I1012 12:27:43.521965       1 options.go:113] AgentID set to b7f3182c-995e-4364-aa0a-d569084244e4.
I1012 12:27:43.521967       1 options.go:114] SyncInterval set to 1s.
I1012 12:27:43.521972       1 options.go:115] ProbeInterval set to 1s.
I1012 12:27:43.521980       1 options.go:116] SyncIntervalCap set to 10s.
I1012 12:27:43.522020       1 options.go:117] Keepalive time set to 30s.
I1012 12:27:43.522042       1 options.go:118] ServiceAccountTokenPath set to "".
I1012 12:27:43.522059       1 options.go:119] AgentIdentifiers set to .
I1012 12:27:43.522083       1 options.go:120] WarnOnChannelLimit set to false.
I1012 12:27:43.522104       1 options.go:121] SyncForever set to false.
I1012 12:27:43.567902       1 client.go:255] "Connect to" server="e9df3653-9bd4-4b09-b1a7-261f6104f5d0"

Observação

Quando um cluster AKS é configurado com uma integração de rede virtual do servidor de API e uma interface de rede de contentores do Azure (CNI) ou uma CNI do Azure com atribuição dinâmica de IP para pods, não é necessário implantar agentes Konnectivity. Os pods de servidor de API integrados podem estabelecer comunicação direta com os nós de trabalho de cluster por meio de rede privada.

No entanto, quando você usa a integração de rede virtual do servidor de API com o Azure CNI Overlay ou traz seu próprio CNI (BYOCNI), o Konnectivity é implantado para facilitar a comunicação entre os servidores de API e os IPs de pod. A comunicação entre os servidores de API e os nós de trabalho permanece direta.

Você também pode pesquisar os logs do contentor no serviço de registo e monitorização para os recuperar. Para obter um exemplo que procura erros de conectividade aks-link, consulte Registos de consulta sobre informações de contentores.

Execute a seguinte consulta para recuperar os logs:

ContainerLogV2 
| where _ResourceId =~ "/subscriptions/<subscription-ID>/resourceGroups/<resource-group-name>/providers/Microsoft.ContainerService/managedClusters/<cluster-ID>" // Use the IDs and names of your resources for these values.
| where ContainerName has "aks-link"
| project LogSource,LogMessage, TimeGenerated, Computer, PodName, ContainerName, ContainerId
| order by TimeGenerated desc
| limit 200

Execute a seguinte consulta para pesquisar logs de contêiner para qualquer pod com falha em um namespace específico:

let KubePodInv = KubePodInventory
    | where TimeGenerated >= startTime and TimeGenerated < endTime
    | where _ResourceId =~ "<cluster-resource-ID>" // Use your resource ID for this value.
    | where Namespace == "<pod-namespace>" // Use your target namespace for this value.
    | where PodStatus == "Failed"
    | extend ContainerId = ContainerID
    | summarize arg_max(TimeGenerated, *)  by  ContainerId, PodStatus, ContainerStatus
    | project ContainerId, PodStatus, ContainerStatus;

    KubePodInv
    | join
    (
        ContainerLogV2
    | where TimeGenerated >= startTime and TimeGenerated < endTime
    | where PodNamespace == "<pod-namespace>" //update with target namespace
    ) on ContainerId
    | project TimeGenerated, PodName, PodStatus, ContainerName, ContainerId, ContainerStatus, LogMessage, LogSource

Se tu não conseguires obter os logs usando consultas ou a ferramenta kubectl, utiliza a autenticação Secure Shell (SSH). Este exemplo localiza o pod tunnelfront depois de se conectar ao nó via SSH.

kubectl pods -n kube-system -o wide | grep tunnelfront
ssh azureuser@<agent node pod is on, output from step above>
docker ps | grep tunnelfront
docker logs …
nslookup <ssh-server_fqdn>
ssh -vv azureuser@<ssh-server_fqdn> -p 9000
docker exec -it <tunnelfront_container_id> /bin/bash -c "ping bing.com"
kubectl get pods -n kube-system -o wide | grep <agent_node_where_tunnelfront_is_running>
kubectl delete po <kube_proxy_pod> -n kube-system

Etapa 3: Validar a resolução de DNS ao restringir a saída

A resolução de DNS é um aspeto crucial do seu cluster AKS. Se a resolução DNS não estiver funcionando corretamente, isso pode causar erros de plano de controle ou falhas de extração de imagem de contêiner. Para garantir que a resolução DNS para o servidor de API do Kubernetes esteja funcionando corretamente, siga estas etapas:

Execute o comando kubectl exec para abrir um shell de comando no contêiner que está sendo executado no pod.
```
kubectl exec --stdin --tty your-pod --namespace <namespace-name> -- /bin/bash
```
Verifique se as ferramentas nslookup ou dig estão instaladas no contêiner.
Se nenhuma das ferramentas estiver instalada no pod, execute o seguinte comando para criar um pod utilitário no mesmo namespace.
```
kubectl run -i --tty busybox --image=busybox --namespace <namespace-name> --rm=true -- sh
```
Você pode recuperar o endereço do servidor de API na página de visão geral do cluster AKS no portal do Azure ou executar o seguinte comando.
```
az aks show --name <aks-name> --resource-group <resource-group-name> --query fqdn --output tsv
```
Execute o seguinte comando para tentar resolver o servidor API AKS. Para obter mais informações, consulte Solucionar problemas de falhas na resolução de DNS dentro do pod, mas não no nó de trabalho.
```
nslookup myaks-47983508.hcp.westeurope.azmk8s.io
```
Verifique o servidor DNS upstream do pod para determinar se a resolução DNS está funcionando corretamente. Por exemplo, para o DNS do Azure, execute o nslookup comando.
```
nslookup microsoft.com 168.63.129.16
```
Se as etapas anteriores não fornecerem informações, conecte-se a um dos nós de trabalho e tente a resolução de DNS a partir do nó. Esta etapa ajuda a identificar se o problema está relacionado ao AKS ou à configuração de rede.
Se a resolução de DNS for bem-sucedida a partir do nó, mas não do pod, o problema pode estar relacionado ao DNS do Kubernetes. Para conhecer os passos para diagnosticar a resolução de DNS do pod, consulte a seção de Solução de problemas de falhas de resolução de DNS.

Se a resolução DNS falhar a partir do nó de rede, revise a configuração de rede para garantir que os caminhos e portas de roteamento apropriados estejam abertos para facilitar a resolução DNS.

Etapa 4: Verificar se há erros de kubelet

Verifique a condição do processo kubelet que está a ser executado em cada nó de trabalho e certifique-se de que não está sobrecarregado. A pressão potencial pode pertencer à CPU, memória ou armazenamento. Para verificar o estado dos kubelets de nós individuais, pode usar um dos seguintes métodos.

Pasta de trabalho do kubelet do AKS

Para garantir que os kubelets do nó do agente funcionem corretamente, siga estas etapas:

Aceda ao cluster do AKS no portal do Azure.
Na seção Monitoramento do painel de navegação, selecione Pastas de trabalho.
Selecione o livro de trabalho Kubelet.
Selecione Operações e certifique-se de que as operações para todos os nodos de trabalho estão concluídas.

Monitorização em cluster com Prometheus e Grafana

Se Prometheus e Grafana foram desplegados no seu cluster AKS, pode usar o painel Kubernetes / Kubelet para obter informações sobre a integridade e o desempenho dos kubelets de cada nó.

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

Você pode usar o painel pré-construído do Kubernetes / Kubelet para visualizar e analisar as métricas do Prometheus para os kubelets do nó de trabalho. Para fazer isso, você deve configurar seu cluster AKS para coletar métricas do Prometheus no serviço gerenciado do Monitor para Prometheus e conectar seu espaço de trabalho do Monitor a um espaço de trabalho do Azure Managed Grafana .

A pressão aumenta quando um kubelet reinicia e causa um comportamento esporádico e imprevisível. Certifique-se de que a contagem de erros não aumente continuamente. Um erro ocasional é aceitável, mas um crescimento constante indica um problema subjacente que você deve investigar e resolver.

Etapa 5: Use a ferramenta NPD (detetor de problemas do nó) para verificar a integridade do nó

O NPD é uma ferramenta do Kubernetes que você pode usar para identificar e relatar problemas relacionados ao nó. Ele opera como um serviço systemd em cada nó dentro do cluster. Ele reúne métricas e informações do sistema, como uso da CPU, uso do disco e status da conectividade de rede. Quando um problema é detectado, a ferramenta NPD gera um relatório sobre os eventos e o estado do nó. No AKS, a ferramenta NPD é usada para monitorar e gerenciar nós em um cluster Kubernetes hospedado na nuvem do Azure. Para obter mais informações, consulte NPD em nós AKS.

Etapa 6: Verificar as operações de E/S de disco por segundo (IOPS) quanto à limitação

Para garantir que as IOPS não estejam sendo limitadas e afetando serviços e cargas de trabalho dentro do cluster AKS, você pode usar um dos seguintes métodos.

Livro de trabalho de I/O de disco do nó AKS

Para monitorar as métricas relacionadas à E/S de disco dos nós de trabalho no cluster AKS, você pode usar a pasta de trabalho de E/S do disco do nó . Siga estas etapas para acessar a pasta de trabalho:

Aceda ao cluster do AKS no portal do Azure.
Na seção Monitoramento do painel de navegação, selecione Pastas de trabalho.
Selecione o workbook Node Disk IO.
Analise as métricas relacionadas a E/S.

Monitorização em cluster com Prometheus e Grafana

Se você implantou o Prometheus e o Grafana em seu cluster AKS, poderá usar o painel Método USE / Nó para obter informações sobre a E/S de disco para os nós de trabalho do cluster.

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

Você pode usar o painel pré-construído Node Exporter / Nodes para visualizar e analisar métricas relacionadas à E/S de disco dos nós de trabalho. Para fazer isso, você deve configurar seu cluster AKS para coletar métricas do Prometheus no serviço gerenciado do Monitor para Prometheus e conectar seu espaço de trabalho do Monitor a um espaço de trabalho do Azure Managed Grafana .

IOPS e discos do Azure

Os dispositivos de armazenamento físico têm limitações inerentes em termos de largura de banda e do número máximo de operações de arquivo que podem manipular. Os discos do Azure são usados para armazenar o sistema operacional executado em nós AKS. Os discos estão sujeitos às mesmas restrições de armazenamento físico que o sistema operacional.

Considere o conceito de taxa de transferência. Você pode multiplicar o tamanho médio de E/S pelas IOPS para determinar a taxa de transferência em megabytes por segundo (MBps). Tamanhos de E/S maiores se traduzem em IOPS mais baixas devido à taxa de transferência fixa do disco.

Quando uma carga de trabalho ultrapassa os limites máximos de serviço IOPS atribuídos aos discos do Azure, o cluster pode deixar de responder e entrar em um estado de espera de E/S. Em sistemas baseados em Linux, muitos componentes são tratados como arquivos, como soquetes de rede, CNI, Docker e outros serviços que dependem de E/S de rede. Consequentemente, se o disco não puder ser lido, a falha se estende a todos esses arquivos.

Vários eventos e cenários podem provocar a limitação de IOPS, incluindo:

Um número substancial de contêineres que são executados em nós, porque a E/S do Docker compartilha o disco do sistema operacional.
Ferramentas personalizadas ou de terceiros empregadas para segurança, monitoramento e registro, que podem gerar operações de E/S adicionais no disco do sistema operacional.
Eventos de transferência em caso de falha de nó e trabalhos periódicos que intensificam a carga de trabalho ou dimensionam o número de instâncias. Este aumento de carga aumenta a probabilidade de ocorrências de limitação, o que pode causar que todos os nós mudem para um estado não pronto até que as operações de E/S sejam concluídas.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Paolo Salvatori | Engenheiro Principal de Clientes
Francis Simy Nazareth | Especialista Técnico Sénior

Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.

Próximos passos

Monitorizar implantações de carga de trabalho

Partilhar via

Examinar a integridade do nó e do pod

Etapa 1: Verifique a integridade dos nós de trabalho

Visualização de saúde dos contentores no Azure Monitor

Visualização de nós AKS

Monitorização em cluster com Prometheus e Grafana

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

Etapa 2: Verificar a conectividade do plano de controle e do nó de trabalho

Etapa 3: Validar a resolução de DNS ao restringir a saída

Etapa 4: Verificar se há erros de kubelet

Pasta de trabalho do kubelet do AKS

Monitorização em cluster com Prometheus e Grafana

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

Etapa 5: Use a ferramenta NPD (detetor de problemas do nó) para verificar a integridade do nó

Etapa 6: Verificar as operações de E/S de disco por segundo (IOPS) quanto à limitação

Livro de trabalho de I/O de disco do nó AKS

Monitorização em cluster com Prometheus e Grafana

Monitore o serviço de gestão para Prometheus e Azure Managed Grafana

IOPS e discos do Azure

Contribuidores

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais