事件的特征和生命周期
正如上一单元中介绍的,“事件”是会对你的客户和最终用户造成影响的服务中断。 事件的形式多种多样,从对用户造成困扰的性能下降(“缓慢是新的性能降低表现”)到导致服务或站点在一段时间内完全不可用的系统崩溃,不一而足。
事件的特征
事件通常是意外发生的,并且似乎通常会发生在最糟糕的时候(例如发生在凌晨 2:00,或者当你正全身心投入到一个重要项目中时)。 这就是为什么事件通常令人害怕,让人唯恐避之不及,甚至到了人们有时会对事件重要性轻描淡写的程度。 对于可能会因害怕遭到谴责而为中断标上错误标签或未能报告中断的组织而言,内部压力有时可能会发挥有效的作用。
至少,事件会造成计划外的工作,并且由于你将大部分时间都放在了计划内的工作上,专注的是自己应该完成的工作,因此你可能会认为发生事件是很糟糕的。 然而,还有另一种看待它的方式:对于为最终用户提供价值而言,事件实际上是一种投资*。 无论事件的原因是什么或者影响程度如何,所有事件都有一个共同点:它们可以提供有价值的学习经验。
应将事件视为“系统的脉搏”。 与你之前所了解到的信息相比,它们会告知你更多关于系统的信息,而知晓这些信息则是一件好事。 当你拥有强大的监视基础并更多地了解系统中发生的情况时,它将不可避免地产生更多警报和事件以及响应机会。 至少,事件会告知你发生了什么情况,并因此提高你的操作意识。 在之前有关监视的模块中,我们给出了这是实现可靠性工作的一个重要前提的建议。
事件生命周期
如果你想将事件响应团队的地位提升至“精英/高水平执行者”,就不能将服务中断或事件视为简单的线性时间线,而必须从循环的角度着手处理它。
事件的生命周期可以分为多个不同的阶段,从逻辑上讲,这些阶段一个接着一个,形成了周而复始的循环。 每次历经此循环时(并且你将历经多次),如果你正确处理它,那么在回到起点时,你可能会对你的系统有了更深入的见解。 通过某些有意进行的工作,还可以更好地在下次发生事件时做出快速且高效的响应。
事件的阶段
事件响应过程的各个阶段稍有不同,具体因你使用的模型而异。 在本模块中,对事件进行响应分为五个阶段:
- 检测:在此阶段中,此学习路径上一个模块中关于监视的知识将发挥作用。 监视工具会收集日志中的信息、根据已配置的以客户为中心的目标对这些信息进行分析,然后向你发送可操作的警报,告知你需要进行人工干预。
- 响应:此阶段是你和你的团队在收到警报后发生的情况。 我们将在本模块中详细探讨这一阶段,因此稍后将对此进行更多讲解。
- 修正:在此阶段中,你需要将系统还原到正常工作状态。 如何还原到正常工作状态因服务中断的原因而异。 让服务恢复正常运行并让它可供客户使用是你的首要任务。 然而,你的工作还远不止此。
- 分析:为了从事件中获得永久的价值,你需要从中汲取教训。 此阶段是收集有关事件期间发生的情况及发生时间的信息,并通过提出正确的问题来看看是否可以从中学到什么的过程。 有一个完整的“从失败中吸取经验和教训”模块对此阶段进行了讲解。
- 准备情况:应将分析阶段所吸取的教训融入到你的操作实践中。 如果存在有助于防止未来出现类似中断的操作,那它们也属于此阶段。
在创建事件响应计划之前,需要了解事件的特征和价值并且需要熟悉事件生命周期的各个阶段。 下一步是确保响应策略构建在一个坚实的基础上。