你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

管理新式应用程序平台解决方案，以实现最佳性能和可靠性

2025-06-27

本文可帮助你为容器化工作负载和 Azure Kubernetes 服务（AKS）建立作管理。有效的运营管理可减少停机时间，改善安全状况，并优化容器平台的成本。操作方法如下：

实施平台操作

平台运营提供用于有效管理 AKS 群集和容器化工作负载的专用工具和流程。平台操作可确保所有群集的一致管理，并降低运营负担。你需要实施平台操作。操作方法如下：

建立集中式群集管理功能。 集中管理提供一致的策略，并减少多个群集的作复杂性。针对 Kubernetes 和支持 Azure Arc 的 Kubernetes 配置 Azure Policy，以在所有群集上强制实施治理，无论其位置如何。
部署监控和可观测性基础架构。 全面监视可实现主动问题检测和性能优化。监视基础可提供有效运营所需的数据平台和工作负荷团队。安装用于容器的 Azure Monitor 并配置 Prometheus 集成以捕获基础结构和应用程序指标。
实现自动化维护过程。 自动维护可减少手动工作量，并确保跨群集的一致更新应用程序。自动化过程将安全漏洞降到最低，并维护平台可支持性。使用 Azure 自动化工具为 AKS 群集、节点映像和作系统修补程序建立计划的升级周期。

监视清单并确保可见性

容器环境需要全面的监视配置才能有效地捕获作数据。监视可见性可实现快速事件响应并支持容量管理决策。需要了解群集运行状况、工作负荷性能和资源利用率，以确保最佳作。操作方法如下：

部署用于容器的 Azure Monitor 以收集全面的遥测数据。 用于容器的 Azure Monitor 为容器操作监控提供基础。此解决方案捕获平台团队在基础设施管理中所需的关键操作数据，以及工作负荷团队为应用程序优化所需的数据。配置用于容器的 Azure Monitor 以监视这些基本区域：
- 跨区域群集拓扑和资源利用率
- 节点池配置、网络和存储体系结构
- AKS 版本和节点映像符合性状态
- 群集和容器级别的 CPU、内存和存储利用率
- 正常负载和峰值负载条件下的工作负荷行为
- 自动发出阈值超限和运行状况状态变化警报
配置标准化的查询和仪表板以实现操作一致性。 标准化监视方法可降低运营复杂性，并确保跨团队的一致可见性。标准化监控模式使平台和工作负载团队能够有效地使用共同的操作程序。通过配置 Azure Monitor 查询来创建与您的操作模型和服务级别协议一致的标准化仪表板和警报。
通过 Prometheus 集合集成特定于应用程序的指标。 应用程序指标提供基础结构监视无法捕获的见解。应用程序级监视使团队能够了解工作负荷行为并有效地优化性能。与 Prometheus 集成以收集自定义应用程序指标，并将其与基础结构数据相结合，以便跨容器平台实现全面的可观测性。
将监视覆盖范围扩展到混合和多云环境。 跨所有容器平台进行一致的监视可简化作并减少管理开销。无论容器在何处运行，统一可见性都可确保操作的一致性。扩展监视以包括本地 AKS 引擎、Azure Red Hat OpenShift 和已启用 Azure Arc 的 Kubernetes 群集，以便全面了解整个容器组合。

维护合规性

容器化环境中的运营合规性需要在多个级别进行管理：通过 AKS 群集、节点映像和节点操作系统。合规性管理可确保安全漏洞及时收到修补程序，并且平台仍可保持支持状态。必须根据运营模型确定集中式团队还是工作负荷团队处理这些合规性责任。操作方法如下：

评估适合您环境的运营所有权模型。 作所有权会影响更新频率、测试过程和事件响应功能。不同的所有权模型提供不同的优势，并且需要不同的团队功能。选择符合团队结构和业务需求的所有权模型。比较以下方法：
- 工作负荷团队所有权提供精细控制和更快的更新，但需要更多团队专业知识
- 集中式所有权提供标准化和成本效益，但可降低灵活性和响应能力
实施系统升级和维护过程。 定期维护可防止安全漏洞，并确保平台可支持性。系统过程将业务影响降到最低，并提供可预测的维护时段。必须建立计划的维护时段和测试过程，以最大程度地减少业务中断。遵循以下特定于 Azure 的过程：
- 使用蓝绿或滚动更新策略升级 AKS 群集
- 升级节点映像以包含最新的安全修补程序
- 使用 Kured 等自动化工具处理节点 OS 更新
- 对企业环境应用修补和升级最佳做法
为多租户群集建立风险管理过程。 多租户群集需要在团队之间仔细协调和彻底的测试过程。风险管理过程可确保工作负载兼容性并提供明确的升级路径。需要针对不支持群集升级的工作负荷制定应急计划，并清除维护活动的通信渠道。在预生产环境中测试所有升级，并维护详细的回滚过程。

保护和恢复工作负荷

AKS 节点是短暂的，旨在进行替换而非用于单个还原。保护策略必须考虑到容器基础结构的暂时性，同时确保业务连续性要求。必须设计与工作负荷关键性和恢复时间目标保持一致的保护和恢复策略。操作方法如下：

评估每个工作负荷的状态管理要求。 状态管理会影响备份策略和恢复过程。不同的应用程序类型需要不同的保护方法，具体取决于其数据持久性需求。确定应用程序是无状态还是需要持久数据。无状态应用简化了作，而有状态应用需要专用存储和备份策略。
实现服务级别协议和可用性度量值。 服务级别协议定义恢复目标并确定保护投资。明确服务级别协议，使运营投资符合业务要求。你需要建立服务级别协议，以平衡业务需求与运营成本。配置以下保护级别：
- 将运行时间 SLA 添加到群集以提高可用性保证
- 为任务关键型工作负荷实施多区域 BCDR 最佳实践
- 根据工作负荷关键性设计适当的冗余和故障转移机制
建立数据保护和状态管理过程。 无状态应用程序和有状态应用程序之间的数据保护要求差异很大。适当的数据保护可确保业务连续性并支持合规性要求。必须标识需要持久状态并实现适当的备份和恢复机制的应用程序。遵循以下方法：
- 使用您现有的操作基线指南进行外部状态恢复
- 针对需要持久状态的应用程序实现存储最佳做法
- 建立针对有状态工作负载的持久数据备份和还原程序
- 使用特定于平台的工具（如 Velero ）进行全面的备份和恢复
标准化你的产品组合中的恢复工具链。 不一致的恢复方法会增加作复杂性和成本。标准化恢复方法可降低训练要求和运营开销。必须为所有容器化工作负荷选择标准化的恢复方法，以减少管理开销。如果应用程序不符合标准恢复方法，可将替代解决方案的责任转移到工作负荷团队。

设计工作负荷操作

容器和 AKS 使工作负荷团队能够实现特定于应用程序的运营流程，并使用使客户受益的专用功能。使用 Azure Well-Architected Framework 和 Microsoft Azure Well-Architected 评审，为单个工作负荷定义特定的操作流程和工具。这些评估工具有助于确定可靠性、安全性、成本优化、卓越运营和性能效率的特定于工作负荷的要求。

Azure 资源

类别	工具	DESCRIPTION
监视和可见性	用于容器的 Azure Monitor	提供对具有内置仪表板和警报的 AKS 群集、节点和容器的全面监视
监视和可见性	Azure Monitor 查询	启用自定义仪表板并详细分析容器性能和运行状况指标
监视和可见性	Prometheus 集成	收集特定于应用程序的指标，并与 Azure Monitor 集成，实现统一可观测性
运营合规	AKS 群集升级	为 AKS 群集提供自动化和手动升级过程，停机时间最短
运营合规	节点映像升级	使用最新的安全修补程序和操作系统更新来更新节点映像。
运营合规	节点 OS 更新	使用 Kured 等工具自动执行节点操作系统更新，以实现无缝维护
运营合规	补丁和升级指南	提供 AKS 维护和升级过程的企业最佳做法
保护和恢复	AKS 运行时间 SLA	提供经济支持的服务级别协议，以提高群集可用性
保护和恢复	多区域 BCDR 实践	跨多个 Azure 区域实现业务连续性和灾难恢复
保护和恢复	存储最佳做法	提供有关 AKS 中持久性存储管理和数据保护的指导
工作负载运营	Azure 良好架构的框架	为单个工作负荷和应用程序定义卓越运营原则
工作负载运营	Azure 完善架构审查	为工作负荷特定的操作要求和优化提供评估工具

后续步骤

新式应用程序平台的策略