你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

AKS 操作的会审做法

Azure Kubernetes 服务 (AKS) 群集的根本原因分析通常很有挑战性。 若要简化此过程,请考虑使用基于群集层次结构的自上而下的方法为问题分类。 从群集级别开始,在必要时向下钻取。

Diagram that shows the hierarchy of AKS cluster components: Cluster, node pools, nodes, pods, and containers.

以下部分提供了一系列有关分类做法的概述,其中详细介绍了自上而下的方法。 这些文章提供了使用一组工具和仪表板的示例。 这些文章介绍了这些示例如何突出问题的症状。

本系列中解决的常见问题包括:

  • 配置不当导致的网络和连接问题。
  • 控制平面与节点之间的通信中断。
  • 计算、内存或存储资源不足导致的 Kubelet 压力。
  • 域名系统 (DNS) 解析问题。
  • 每秒磁盘输入/输出操作 (IOPS) 不足的节点。
  • 许可控制管道阻止了对 API 服务器的多个请求。
  • 群集没有从相应的容器注册表拉取的权限。

本系列的目的不是解决具体问题。 有关排查特定问题的信息,请参阅 AKS 故障排除

在分类实践系列

步骤 说明
1.评估 AKS 群集运行状况 检查群集和网络的总体运行状况。
2.检查节点和 Pod 运行状况 评估 AKS 工作器节点的运行状况。
3.监视工作负载部署 确保所有部署和 DaemonSet 功能都在运行。
4.验证许可控制器 检查许可控制器是否按预期工作。
5.验证与容器注册表的连接 验证与容器注册表的连接。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤