总结

已完成

灾难规划和恢复是 IT 运营的关键要素,无论组织的系统是位于本地、云端还是同时位于这两个位置。 公有云平台提供的服务可用于备份关键数据,在丢失数据时对其进行还原、在主系统发生故障时故障转移至辅助系统,以及通常用于减轻故障影响(并从中恢复)。 下面是本模块中涉及的一些要点:

  • IT 系统应尽可能地容错。 容错 (FT) 系统是在出现故障时按预期方式运行或根据服务水平协议 (SLA) 预期要求运行的系统

  • 实现容错的一种方法是采用应对方法,例如任务复制和还原点。

  • 资源复制和负载均衡等防范方法也可以提高容错能力。

  • 主要云平台提供的备份服务可提供防止数据丢失的安全网。 基于云的备份服务的示例有 Azure备份和 AWS 备份。

  • 灾难恢复旨在通过按需将流量重定向到辅助系统来提供业务连续性。 Amazon 和 Microsoft 等云服务提供商以各种服务(例如 AWS CloudEndure 和 Azure Site Recovery)的形式提供灾难恢复即服务 (DRaaS)。

  • 推动灾难恢复计划的常见服务级别目标包括恢复点目标 (RPO)、恢复时间目标 (RTO) 和保留期。

  • 连续性是指在灾难发生时成功地应用最佳做法以取得积极的成果。 连续性的关键因素是复原能力

  • 可以使用容错、容断和生存能力等指标来量化复原能力。 ResiliNets 模型提供了一种编码复原能力的方法。

  • 业务连续性策略的国际标准是 ISO 22301。 Azure 使用 Azure 复原能力框架以遵从 ISO 22301 规定。

为了使信息系统可复原,其看管者必须努力实现理想的目标:信息系统通过不断地改进和监视实际存在的而非人造的事物像生物一样发展。 自动化流程具有积极的作用,但无法代替人们的积极努力。