你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
AKS 操作的会审做法
Azure Kubernetes 服务 (AKS) 群集的根本原因分析通常很有挑战性。 若要简化此过程,请考虑使用基于群集层次结构的自上而下的方法为问题分类。 从群集级别开始,在必要时向下钻取。
以下部分提供了一系列有关分类做法的概述,其中详细介绍了自上而下的方法。 这些文章提供了使用一组工具和仪表板的示例。 这些文章介绍了这些示例如何突出问题的症状。
本系列中解决的常见问题包括:
- 配置不当导致的网络和连接问题。
- 控制平面与节点之间的通信中断。
- 计算、内存或存储资源不足导致的 Kubelet 压力。
- 域名系统 (DNS) 解析问题。
- 每秒磁盘输入/输出操作 (IOPS) 不足的节点。
- 许可控制管道阻止了对 API 服务器的多个请求。
- 群集没有从相应的容器注册表拉取的权限。
本系列的目的不是解决具体问题。 有关排查特定问题的信息,请参阅 AKS 故障排除。
在分类实践系列
步骤 | 说明 |
---|---|
1.评估 AKS 群集运行状况。 | 检查群集和网络的总体运行状况。 |
2.检查节点和 Pod 运行状况。 | 评估 AKS 工作器节点的运行状况。 |
3.监视工作负载部署。 | 确保所有部署和 DaemonSet 功能都在运行。 |
4.验证许可控制器。 | 检查许可控制器是否按预期工作。 |
5.验证与容器注册表的连接。 | 验证与容器注册表的连接。 |
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
主要作者:
- Kevin Harris | 首席解决方案专家
其他参与者:
- Paolo Salvatori | 首席客户工程师
- Francis Simy Nazareth | 高级技术专家
若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。