介绍

已完成

Dickerson 可靠性层次结构提供了用于导航可靠性挑战的地图;需要解决哪些问题,以及按何种顺序处理。 与其他此类层次结构一样,在向上移动金字塔之前,确保你所在的级别稳固是很重要的。

具有七个层级的 Dickerson 可靠性层次结构的金字塔图,其中事件后审查层被突显为该模块的重点。

从基础起,七个层是:

  1. 监控:看不见就无法改进。
  2. 事件响应:警报触发时要响应的可靠、可重复的进程。
  3. 事后回顾:从发生的事件(本模块的焦点)中学习。
  4. 测试和发布:在回归问题进入生产环境之前将其捕获。
  5. 容量规划:确保系统具有满足需求所需的资源。
  6. 开发:编写可靠的软件。
  7. 产品:为用户构建正确的内容。

此模块所应对的问题大致处于该金字塔的中层。 解决了监视和事件响应问题(也许在此学习路径中的其他 Learn 模块的帮助下),你现在可以专注于有助于提高操作实践水平的原则和做法。

层次结构改编自 Mikey Dickerson 的可靠性需求层次结构。

在本模块中,我们将重点介绍事件后评审,帮助你从故障中吸取教训,从而提高可靠性。

完成本模块后,你将:

  • 了解从事件中学习的重要性。
  • 了解复杂系统的各个方面,这些方面使从失败中学习变得重要。
  • 了解何时以及如何进行事件后评审。
  • 了解事后评审的目的和目标。
  • 了解构成良好事故后审查的组成部分。
  • 探索有助于开始事后评审的Azure工具。
  • 意识到要避免的常见陷阱。
  • 确定有用的做法,以便进行更好的评审。

引言故事

若要为本模块引导场景,下面是一个真实的故事(或者说其中一半,实际上);这故事的第二部分将在本模块后面讲述。

在第二次世界大战期间,B-17“飞行堡垒”飞机参与了一系列事故。 我们不知道这些事故的所有细节,我们不知道有多少人。 这是战时,许多细节都是秘密的,仍然是秘密。 我们知道的是,有许多类似的事件涉及许多个别飞机。 历史转述往往集中在受损的飞机上,而不是重伤,但战时记录不完整。

在每个情况下,会发生什么情况是:B-17 将进入陆地,将成功降落,然后无论是在跑道上还是滑行回到机库,都会发生一些奇怪的事情。 会发生一些严重的事情。 B-17将在地面上,突然起落架将收回,飞机将倒在跑道上。

在每个案例中,调查人员都会寻找机械故障或电气故障的证据,在每个案例中,他们都找不到任何证据。 因此,他们的结论是,这是一个飞行员错误的情况,飞行员错误地收回着陆架。

下面是另外两条信息:调查人员的判断正确,没有发生机械故障或电气故障。 事故不断发生。

此信息可能导致你对有关这些事故的初始结论不满,也许让你想知道这是否是整个故事。 在本模块中,我们将提出一个观点:这一结论以及导致这一结论的调查中存在某些缺失。