运行状况状态、指标和阈值

已完成

运行状况建模的一个关键部分是在关键业务需求的上下文中量化应用程序的“运行正常”、“降级”和“运行不正常”状态。 “交通灯”模型是表示运行状况状态的常用方法。

  • 绿色:运行正常状态。 关键的非功能需求得到充分满足,资源得到最佳利用。
  • 黄色:降级状态。 应用程序正常运行,但用户体验可能会受到影响。 需要管理员注意才能缓解此状态。
  • 红色:运行不正常状态。 应用程序未按预期工作或执行。 运行不正常状态会影响用户。

在分层运行状况模型中,开始定义顶部包含用户流的状态,然后向下移动到平台资源。 下图显示了一个分层运行状况模型示例。 此图演示了基础组件的运行状况更改如何对用户流和整体应用程序运行状况产生级联影响:

Diagram that shows a sample layered health model with cascading heath states.

每个层都应根据应用程序功能和非功能要求使用组件的指标和指标阈值来表示运行正常和不正常状态。 根据组件在生产工作负载中的独特操作特征、稳定状态和预期行为定义组件的运行状况状态。

例如,指标可能包括异常数、响应时间和服务指标。 应用程序组件可以依赖于 Azure 资源,甚至依赖于其他组件。 你需要考虑这些运行状况状态。

下面是计算运行状况分数的一些最佳做法:

  • 通过聚合参与流的组件的精细运行状况分数来表示用户流的运行状况状态。 它应包括应用程序组件和所有映射的依赖项。 将关键的非功能性需求视为系数。
  • 通过在所有映射组件中使用最低分数来表示用户流的运行状况分数。 根据用户流的非功能性需求考虑相对实现。
  • 确保运行状况分数一致地反映操作运行状况。 否则,请调整并重新部署模型以反映新信息。
  • 定义运行状况分数阈值以反映组件的运行状况状态。

性能测试是建立这些状态的关键。 单个组件的精细运行状况分数是关键的资源级指标。 下表显示了如何使用资源指标定义运行状况状态的示例:

Diagram of a table that shows health states for a layered health model.

在下一个练习中,我们将量化示例应用程序的运行状况状态。 本练习将帮助你了解标准生产工作负载的预期值。

知识检查

1.

哪个层位于运行状况模型层次结构中的最高级别?

2.

选择指标和阈值时,需要:

3.

在运行状况模型中同时具有“降级”和“运行不正常”状态是否有意义?