Solución de problemas de errores de Node Not Ready seguidos de recuperaciones

Artículo
04/12/2024

En este artículo se ayudan a solucionar escenarios en los que un nodo dentro de un clúster de Microsoft Azure Kubernetes Service (AKS) muestra el estado Nodo no listo, pero, a continuación, se recupera automáticamente en un estado correcto.

Síntomas

Observe que la aplicación deja de responder mientras el nodo informa de que tiene un estado No listo. Sin embargo, el nodo se recupera automáticamente y, ahora, busca un análisis de causa raíz (RCA).

Causa

Entre las posibles causas de este problema se incluyen los siguientes escenarios:

El servidor de API no está disponible y usa un sondeo de preparación para la implementación.

Si un pod se está ejecutando pero no está listo, esa situación significa que se produce un error en el sondeo de preparación. Si se produce un error en el sondeo de preparación, el pod no está asociado al servicio y el tráfico no se reenvía a la instancia del pod.
Se producen errores de host de máquina virtual (VM). Para determinar si se produjeron errores de host de máquina virtual, compruebe los siguientes orígenes de información:
- Diagnóstico de AKS
- Estado de Azure
- Notificaciones de Azure (para cualquier interrupción reciente o períodos de mantenimiento)

Prevención

Para evitar que este problema se produzca en el futuro, realice una o varias de las siguientes acciones:

Asegúrese de que el nivel de servicio está totalmente pagado.
Reduzca el número de watch solicitudes y get al servidor de API.
Reemplace el grupo de nodos por un grupo de nodos en buen estado.

Más información

Para ver los pasos generales de solución de problemas, consulte Solución de problemas básica de errores de Node Not Ready.

Compartir a través de