Microsoft 365 中的数据复原能力

鉴于云计算的复杂性,Microsoft 注意到,不是出现问题的情况,而是何时出错。 我们设计云服务,以最大程度地提高可靠性,并在出现问题时尽量减少对客户的负面影响。 我们已经超越了依赖复杂物理基础结构的传统策略,并且直接将冗余构建到云服务中。 我们结合使用不太复杂的物理基础结构和更智能的软件,在服务中构建数据复原能力,并为客户提供高可用性。

内置了复原能力和可恢复性

构建复原能力和恢复始于以下假设:底层基础结构和进程在某个时候会失败:硬件 (基础结构) 失败,人类会犯错误,软件会出现 bug。 虽然说软件开发人员在云之前没有考虑这些事情是错误的,但在云之前,在典型的 IT 实现中如何处理这些问题是不同的:

  • 首先,硬件和基础结构保护非常重要。 此结构意味着具有 99.99% 可靠性的数据中心需要大量的电源和网络冗余,并且服务器是使用基于硬件的群集、双电源、双网络接口等实现的。
  • 其次,过程至关重要。 运营团队维护了严格的程序,使用了更改窗口,并且通常会产生重大的项目管理开销。
  • 第三,部署以冰川的速度进行。 在不拥有源代码的情况下部署代码意味着等待修补程序发布,而主要版本发布涉及硬件更换和大量资本支出。 此外,更正问题的唯一方法是回滚。 因此,大多数 IT 组织只会部署主要版本,以避免工作以保持最新状态。
  • 最后,已部署系统的规模及其互连性水平在历史上比现在要小得多。

如今,客户期望 Microsoft 持续创新而不影响质量,这也是 Microsoft 服务和软件在构建时考虑到复原能力和可恢复性的原因之一。

Microsoft 365 数据复原原则

复原能力是指基于云的服务能够承受某些类型的故障,但从客户的角度来看保持完全正常运行的能力。 数据复原意味着,无论在 Microsoft 365 中发生什么故障,关键客户数据都保持不变且不受影响。 为此,Microsoft 365 服务围绕五项特定的复原原则进行了设计:

  • 存在关键和非关键数据。 例如,非关键数据 (是否在极少数故障情况下读取) 可以删除消息。 例如,关键数据 (,电子邮件) 等客户数据应以极高的成本受到保护。 作为设计目标,已传递的邮件始终至关重要,并且邮件是否已阅读等事项是非关键性的。
  • 客户数据的副本必须分为不同的容错区域或尽可能多的容错域, (例如数据中心,可通过单一凭据 (进程、服务器或操作员) ) 进行访问,以提供故障隔离。
  • 必须监视关键客户数据是否在原子性、一致性、隔离性、持续性 (ACID) 的任何部分失败。
  • 必须防止客户数据损坏。 它必须主动扫描或监视、可修复和可恢复。
  • 大多数数据丢失是由于客户操作造成的,因此允许客户使用 GUI 自行恢复,以便他们能够还原意外删除的项目。

通过构建符合这些原则的云服务,加上可靠的测试和验证,Microsoft 365 能够满足并超越客户的要求,同时确保一个持续创新和改进的平台。