排查节点未就绪故障,然后进行恢复

本文有助于排查 Microsoft Azure Kubernetes 服务 (AKS) 群集中的节点显示节点未就绪状态,但随后自动恢复到正常状态的方案。

症状

你注意到,当节点报告其状态为“未就绪”时,应用程序停止响应。 但是,节点会自动恢复,现在它正在查找根本原因分析 (RCA) 。

原因

此问题的可能原因包括以下方案:

  • API 服务器不可用,并且你正在为部署使用就绪情况探测。

    如果 Pod 正在运行但未准备就绪,则表示就绪情况探测失败。 如果就绪情况探测失败,则 Pod 不会附加到服务,并且流量不会转发到 Pod 实例。

  • 发生虚拟机 (VM) 主机故障。 若要确定是否发生 VM 主机故障,检查以下信息源:

预防

若要防止将来发生此问题,请执行下列操作之一或多项:

  • 确保服务层级已全额支付。
  • 减少对 API 服务器的 和 get 请求数watch
  • 将节点池替换为正常的节点池。

更多信息