了解 BCP 功能验证

已完成

功能验证是 ERCM 生命周期不可或缺的一部分。 它涉及在理论和实践中测试业务连续性计划 (BCP) 的有效性。 每个服务团队定期测试其 BCP,以衡量计划有效性和服务团队执行计划的准备情况。 根据 ERCM 计划指南,必须在上次评审后的 12 个月内对 BCP 和功能验证进行年度评审,并包括对支持文档(如 BIA 和 DA)的评审。

功能验证阶段: - 开发方案, - 执行验证, - 记录结果, - 识别差距和改进

验证级别

为了验证针对各种潜在事件的复原能力和恢复策略,ERCM 计划定义了影响人员、位置和技术的多个类别的测试方案。 单个服务团队可以在 ERCM 测试方案指南中自由定义自己的特定测试。

测试方案的示例包括:

  • 主建筑物或园区群集损失
  • 技术中断
  • 区域网络中断
  • 关键的第三方中断
  • 工作人员中断
  • 广泛的区域事件
  • 单个数据中心丢失
  • 网络攻击
  • 大流行病

在每个测试方案的背景下,Microsoft 定义了八个级别的验证,从 0(这意味着尚未测试该功能)到 7(这意味着该功能在测试期间已完全激活)。 级别 1 到 4 测试在生产环境之外的业务连续性计划的功能。 级别 5 到 7 要求在生产环境中对恢复策略进行越来越严格的验证,第 7 级要求验证整个应用程序生态系统(包括所有依赖项)的恢复计划。 每个服务所需的验证级别取决于服务的关键程度,更关键的服务会受到更严格的验证。 我们通过服务信任门户上提供的季度报告向客户提供选定 Microsoft Online Services 的功能验证结果。

响应影响服务的事件

当 Microsoft 必须执行业务连续性计划来响应影响服务的事件时,功能验证和持续 BCM 改进的价值将变得明显。 当飓风 Harvey 袭击得克萨斯州并即将对圣安东尼奥的数据中心造成不利影响时,Exchange Online 团队激活了业务连续性计划,以主动地从数据中心中疏散流量,从而防止对客户造成任何影响。 威胁过去后,数据中心遵循明确定义的恢复过程回归了正常运营,而没有发生任何事故。 这些过程已就绪,因为 Exchange Online 已根据以前自然灾害中的经验教训更新并测试了其连续性计划,以确保该计划在真正的紧急情况下有效。

从内部事件中学到的经验也将支持业务连续性改进。 当 Microsoft 公司网络由于错误的组策略部署而发生 DNS 中断时,客户会受到保护,免受任何影响,因为公司网络与我们位于单独容错区域中的商业服务隔离。 但是,Microsoft 内部通信受到了影响,因此协调解决该事件更加困难。 此事件导致了紧急状态协议的建立,以便在影响内部通信的事件期间保持 Microsoft 团队之间的协作。

了解详细信息