了解 Microsoft 365 服务复原能力

已完成

弹性是 Microsoft 365 体系结构和服务设计的另一个关键设计原则。 Microsoft 设计和构建我们的云服务,以最大限度地提高可靠性,并最大限度地减少客户在面临故障和正常运营挑战时受到的负面影响。 Microsoft 没有依赖涉及复杂物理基础结构的传统弹性策略,而是直接将冗余构建到联机服务中。 我们将冗余基础结构与智能软件相结合,以最大限度地提高数据弹性、避免停机并满足我们 99.9% 的可用性 SLA。

服务弹性

Microsoft 365 的弹性策略优先考虑软件弹性。 这意味着我们专注于在我们的服务设计中构建弹性,防止服务停机,不受基础硬件的故障影响。 服务弹性使我们的服务能够从多种故障和故障中自动恢复,而不会影响服务可用性。

Microsoft 365 服务实施了许多弹性原则,包括:

  • 主动/主动服务设计:我们尽可能确保我们的服务设计和部署具有主动/主动弹性。 这意味着如果服务的一个关键组件出现故障,则可以使用相同组件来代替,而不会损失可用性。
  • 故障隔离:故障隔离通过防止一个组件中的故障导致其他组件发生故障来提高服务弹性。 Microsoft 365 不断努力减少我们服务中故障区域的大小,以防止故障蔓延并影响其他系统组件。 例如,Exchange Online 数据库可用性组将服务内故障的影响限制在特定的可用性组中。
  • 监控和自我修复:Microsoft 365 服务采用各种自动化机制,持续监控我们服务的运行状况并将流量路由到最佳服务集群。 我们的许多服务都包含检测到问题时的自我修复机制。 例如,如果 Exchange Online 检测到影响可用性组的磁盘故障,则会自动还原邮箱数据库。

数据弹性

数据弹性通过保护 Microsoft 365 服务中数据的完整性和可用性来补充服务弹性。 Microsoft 365 数据弹性侧重于确保关键客户数据在遇到意外故障和故障时保持可用且不被修改。 为此,Microsoft 365 服务实施以下数据弹性原则:

  • 数据关键性:我们的服务旨在保护关键的客户数据。 为此,我们将系统处理的数据分类为关键数据或非关键数据。 在极少数故障情况下,非关键数据(例如是否已读取消息)可能会被丢弃。 关键数据(例如客户数据)受到保护,可防止在故障情况下丢失。
  • 数据冗余:我们的服务使用本地存储冗余和异地冗余将客户数据的副本复制到不同的故障区。 如果数据在一个故障区损坏或丢失,可以在另一个故障区访问,而不会损失可用性。
  • 精细监控和自动恢复:我们的系统会监控客户数据的完整性并自动恢复损坏的数据。 例如,Exchange Online 在多个级别监控数据损坏并自动恢复出现损坏的数据库或邮箱。
  • 防止意外丢失:大多数数据丢失都是由客户操作造成的。 Microsoft 365 为客户提供工具来恢复 Exchange Online 和 SharePoint Online 中意外删除或修改的数据。

网络复原能力

Microsoft 拥有并运营着世界上最大的主干网络之一,连接着全球 54 个区域的数百个数据中心。 我们的网络由数十万公里的专用光纤提供支持,可在全球范围内提供近乎完美的可用性、高容量和网络灵活性。

我们的 Microsoft 数据中心网络在设计时考虑到了与客户的距离,并利用数百个边缘节点来维护服务可用性。 网络体系结构包括直接互连和多条网络路径。 我们的服务利用这种冗余在故障周围自动路由流量,从而提高服务质量。 此外,我们的网络使我们可以直接控制网络容量,而且我们使用软件定义网络主动大规模管理网络流量,以最大限度地提高性能和弹性。

共同的责任和依赖项

在云环境中,弹性是云提供商和客户的共同责任。 虽然 Microsoft 365 专注于其服务和网络的弹性,但客户也需要了解他们的责任和依赖项,以确保服务的可用性。

客户对弹性的责任因特定 Microsoft 365 产品和特定客户配置而异,但通常包括:

  • 维护 Microsoft 365 订阅的许可证。
  • 维护来自最终用户设备的足够网络连接。
  • 培训用户了解保留和恢复策略以及使用保留功能。
  • 在相关服务的服务保留时间内启动数据恢复。
  • 管理和维护任何本地目录。
  • 查看并解决 Azure AD 同步错误。
  • 制定和采用应急策略(例如,设置紧急管理员访问帐户)。
  • 管理和确保客户 HSM 的连接性和功能

了解详细信息