你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

运营设计

合理设计应用程序,使运营团队获得所需的工具。

云已经显著改变了运营团队的角色。 他们不再负责管理托管应用程序的硬件和基础结构。 即便如此,运营仍是成功运行云应用程序的关键环节。 运营团队的一些重要功能包括:

  • 部署
  • 监视
  • 升级
  • 事件响应
  • 安全审核

可靠的记录和跟踪对于云应用程序非常重要。 邀请运营团队参与设计和规划,确保应用程序向他们提供了成功所需的数据和见解。

建议

确保可以观测到所有内容。 部署和运行解决方案后,日志记录和跟踪的结果将是对系统的主要见解。 “跟踪”就是记录系统中的路径,有助于找出瓶颈、性能问题和故障点。 “记录”就是捕获单个事件,例如应用程序状态更改、错误和异常。 请在生产时记录,否则将在最需要它的时候缺乏见解。

用于监视的手段。 通过监视可了解应用程序在可用性、性能和系统运行状况方面的表现是否良好。 例如,监视可指示是否符合 SLA。 在系统的常规运行期间都会进行监视。 应尽可能实时监视,以便操作人员可以迅速对问题作出反应。 理想情况下,监视可在导致严重故障之前,帮助避免问题的出现。 有关详细信息,请参阅监视和诊断

用于根本原因分析的手段。 根本原因分析是查找故障的根本原因的过程。 它发生在故障出现后。

使用分布式跟踪。 使用专为并发、异步和云规模设计的分布式跟踪系统。 跟踪应包括跨服务边界的关联 ID。 单个操作可能涉及对多个应用程序服务的调用。 如果操作失败,关联 ID 可帮助找出失败的原因。

将日志和指标标准化。 运营团队需要在解决方案中聚合来自各种服务的日志。 如果每种服务使用各自的日志格式,将很难或不可能从中获取有用的信息。 定义包括关联 ID、事件名称、发送者 IP 地址等字段的常见架构。 单个服务可以派生继承基础架构并包含附加字段的自定义架构。

自动化管理任务,包括预配、部署和监视。 自动化任务具有可重复性并且可以减少人为错误。

将配置视为代码。 通过将配置文件签入版本控制系统,可以对更改进行跟踪和版本控制,并在需要时回滚。