排查节点未就绪故障,然后进行恢复
本文有助于排查 Microsoft Azure Kubernetes 服务 (AKS) 群集中的节点显示节点未就绪状态,但随后自动恢复到正常状态的方案。
症状
你注意到,当节点报告其状态为“未就绪”时,应用程序停止响应。 但是,节点会自动恢复,现在它正在查找根本原因分析 (RCA) 。
原因
此问题的可能原因包括以下方案:
API 服务器不可用,并且你正在为部署使用就绪情况探测。
如果 Pod 正在运行但未准备就绪,则表示就绪情况探测失败。 如果就绪情况探测失败,则 Pod 不会附加到服务,并且流量不会转发到 Pod 实例。
发生虚拟机 (VM) 主机故障。 若要确定是否发生 VM 主机故障,检查以下信息源:
预防
若要防止将来发生此问题,请执行下列操作之一或多项:
- 确保服务层级已全额支付。
- 减少对 API 服务器的 和
get
请求数watch
。 - 将节点池替换为正常的节点池。
更多信息
- 有关常规故障排除步骤,请参阅 节点未就绪故障的基本故障排除。