鉴于云计算的复杂性,Microsoft请注意,情况不是出现问题的情况,而是何时出错。 我们设计云服务,以最大程度地提高可靠性,并在出现问题时尽量减少对客户的负面影响。 我们超越了依赖复杂物理基础结构的传统策略,直接将冗余构建到云服务中。 我们结合使用不太复杂的物理基础结构和更智能的软件,在服务中构建数据复原能力,并为客户提供高可用性。
内置了复原能力和可恢复性
构建复原能力和恢复始于以下假设:底层基础结构和进程在某些时候会失败:硬件 (基础结构) 失败、人类犯错误以及软件出现 bug。 虽然说软件开发人员在云之前没有考虑这些事情是错误的,但在云之前,在典型的 IT 实现中如何处理这些问题是不同的:
- 首先,硬件和基础结构保护非常重要。 这种结构意味着具有 99.99% 可靠性的数据中心需要大量的电源和网络冗余,并且服务器是使用基于硬件的聚类分析、双电源、双网络接口等实现的。
- 其次,过程至关重要。 运营团队维护了严格的程序,使用了更改窗口,并且通常会产生重大的项目管理开销。
- 第三,部署以冰川的速度进行。 在不拥有源代码的情况下部署代码意味着等待修补程序发布,而主要版本发布涉及硬件更换和大量资本支出。 此外,更正问题的唯一方法是回滚。 因此,大多数 IT 组织只部署了主要版本,以避免为保持最新而进行的工作。
- 最后,部署系统的规模及其互连程度在历史上比现在要小得多。
如今,客户期望Microsoft持续创新,而不影响质量,这是Microsoft服务和软件构建时考虑到复原能力和可恢复性的原因之一。
Microsoft 365 数据复原原则
复原能力是指基于云的服务能够承受某些类型的故障,但从客户的角度来看保持完全正常运行的能力。 数据复原能力意味着,无论在 Microsoft 365 中发生什么故障,关键客户数据都保持不变且不受影响。 为此,Microsoft 365 服务围绕五项特定的复原原则设计:
- 存在关键和非关键数据。 例如,非关键数据 (是否在极少数故障情况下读取) 可以删除消息。 保护关键数据 (例如,客户数据(如电子邮件)) 成本极高。 作为设计目标,已传递的邮件始终至关重要,并且邮件是否已阅读等事项是非关键性的。
- 将客户数据的副本单独复制到不同的容错区域或尽可能多的容错域, (例如数据中心,可通过单一凭据 (进程、服务器或操作员) ) 进行访问,以提供故障隔离。
- 监视关键客户数据,了解原子性、一致性、隔离性、持续性 (ACID) 。
- 防止客户数据损坏。 主动扫描或监视它,使其可修复和可恢复。
- 大多数数据丢失是由于客户作造成的,因此允许客户使用 GUI 自行恢复,该 GUI 使他们能够还原意外删除的项目。
通过根据这些原则构建云服务,加上可靠的测试和验证,Microsoft 365 满足并超越了客户的要求,同时确保了持续创新和改进的平台。