Exchange Online Microsoft 365 中的数据复原能力

重要

随着我们继续以不同的方式投资保留邮箱内容,我们宣布在Exchange Online的 Exchange 管理中心 (EAC) 停用In-Place保留。 从 2020 年 7 月 1 日开始,你将无法创建新的In-Place保留。 但是,你仍能够在 EAC 中管理In-Place保留,或在 Exchange Online PowerShell 中使用 Set-MailboxSearch cmdlet。 但是,从 2020 年 10 月 1 日开始,你将无法管理In-Place保留。 只能在 EAC 或使用 Remove-MailboxSearch cmdlet 中删除它们。 仍支持在 Exchange Server 和 Exchange 混合部署中使用In-Place保留。 有关Exchange Online中In-Place保留的停用的详细信息,请参阅旧版电子数据展示工具的停用。

就地保留将保留所有邮箱内容,包括已删除项目和已修改项目的原始版本。 所有此类邮箱项目均会返回到就地电子数据展示搜索中。 将In-Place保留在用户的邮箱上时,如果已启用) ,则相应存档邮箱中的内容 (在电子数据展示搜索中也处于保留状态并返回。

有两种类型的损坏可能会影响 Exchange 数据库:物理损坏(通常由硬件 (导致,特别是存储硬件) 问题,以及由于其他因素而发生的逻辑损坏。 通常,Exchange 数据库中可能会出现两种类型的逻辑损坏:

  • 数据库逻辑损坏 - 数据库页校验和匹配,但页面上的数据在逻辑上是错误的。 当数据库引擎 (可扩展存储引擎 (ESE) ) 尝试写入数据库页时,可能会发生这种情况,即使操作系统返回成功消息,数据也永远不会写入磁盘,或者写入错误的位置。 这称为 丢失刷新。 ESE 包含许多旨在防止数据库物理损坏和其他数据丢失方案的功能和保障措施。 为了防止丢失刷新功能丢失数据,ESE 在数据库中包括丢失的刷新检测机制,以及用于更正其 (单页还原) 功能。
  • 存储逻辑损坏 - 以用户不期望的方式添加、删除或操作数据。 这些情况是由第三方应用程序引起的。 通常,用户将其视为损坏。 Exchange 存储会考虑产生一系列有效 MAPI 操作的逻辑损坏的事务。 Exchange Online中的就地保留功能可防止存储逻辑损坏 (,因为它可防止用户或应用程序) 永久删除内容。

Exchange Online在日志检查和日志重播期间对复制的日志文件执行多个一致性检查。 这些一致性检查可防止系统复制物理损坏。 例如,在日志检查期间,有一个物理完整性检查,用于验证日志文件并验证日志文件中记录的校验和是否与内存中生成的校验和匹配。 此外,还会检查日志文件标头,以确保日志标头中记录的日志文件签名与日志文件的日志文件签名匹配。 在日志重播期间,日志文件会接受进一步的审查。 例如,数据库标头还包含与日志文件的签名进行比较的日志签名,以确保它们匹配。

通过使用 Exchange Native Data Protection 来防止Exchange Online中邮箱数据损坏,这是一种复原策略,可利用跨多个服务器和多个数据中心的应用程序级复制以及其他有助于防止数据因损坏或其他原因而丢失的功能。 这些功能包括由 Microsoft 或Exchange Online应用程序本身管理的本机功能,例如:

  • 数据可用性组
  • 单位更正
  • 联机数据库扫描
  • 丢失刷新检测
  • 单页还原
  • 邮箱复制服务
  • 日志文件检查
  • 在复原文件系统上部署

有关前面列出的本机功能的详细信息,请选择超链接,并查看以下内容,了解其他信息以及有关没有超链接的项目详细信息。 除了这些本机功能外,Exchange Online还包括客户可以管理的数据复原功能,例如:

数据库可用性组

Microsoft 365 中的每个邮箱数据库都托管在 数据库可用性组中, (DAG) 并复制到同一区域内地理上独立的数据中心。 最常见的配置是四个数据中心中的四个数据库副本;但是,某些区域的数据中心较少, (数据库复制到印度的三个数据中心,澳大利亚和日本的两个数据中心) 。 但在所有情况下,每个邮箱数据库都有四个分布在多个数据中心的副本,从而确保邮箱数据不受软件、硬件甚至数据中心故障的影响。

在这四个副本中,有三个配置为高度可用。 第四个副本配置为 滞后的数据库副本。 滞后的数据库副本不适用于单个邮箱恢复或邮箱项恢复。 其目的是为系统范围灾难性逻辑损坏的罕见事件提供恢复机制。

Exchange Online中滞后的数据库副本配置了 7 天的日志文件重播延迟时间。 此外,还启用了 Exchange Replay Lag Manager,以便为滞后副本提供动态日志文件播放,以允许滞后的数据库副本自行修复和管理日志文件增长。 尽管在Exchange Online中使用了滞后的数据库副本,但请务必了解它们不是有保证的时间点备份。 由于磁盘故障导致包含滞后副本的磁盘丢失、由于自动播放) ,以及数据库副本滞后的期间重新生成日志重播队列,Exchange Online中滞后的数据库副本 (具有可用性阈值(通常约为 90%)。

传输复原能力

Exchange Online包括两个主要的传输复原能力功能:影子冗余和安全网。 阴影冗余在消息传输时保留消息的冗余副本。 安全网在消息成功传递后保留消息的冗余副本。

使用阴影冗余时,每个Exchange Online传输服务器都会在确认成功将消息接收到发送服务器之前,复制收到的每条消息。 这使得传输管道中的所有消息在传输过程中都是冗余的。 如果Exchange Online确定原始消息在传输过程中丢失,则会重新复制消息的冗余副本。

安全网是与邮箱服务器上的传输服务关联的传输队列。 此队列存储服务器成功处理的消息的副本。 当邮箱数据库或服务器故障需要激活邮箱数据库的过期副本时,安全网队列中的邮件会自动重新提交到邮箱数据库的新活动副本。 安全网也是冗余的,因此消除了传输作为单一故障点。 它使用主安全网和影子安全网的概念,其中,如果主要安全网不可用超过 12 小时,重新提交请求将成为影子重新提交请求,并且消息将从影子安全网重新传送。

安全网的消息重新提交由管理 DAG 和邮箱数据库副本的 Microsoft Exchange 复制服务的 Active Manager 组件自动启动。 无需手动操作即可从安全网重新提交消息。

单位更正

ESE 包括一种机制,用于检测和解决单位 CRC 错误 (也称为单位翻转) ,这些单位翻转是硬件错误 (的结果,因此表示物理损坏) 。 发生这些错误时,ESE 会自动更正这些错误,并在事件日志中记录事件。

联机数据库扫描

联机数据库扫描 (也称为 数据库检查求和) 是 ESE 使用数据库一致性检查器读取每个页面并检查页面损坏的过程。 主要目的是检测可能无法通过事务操作检测到的物理损坏和丢失刷新。 数据库扫描还会执行存储后崩溃操作。 由于崩溃,空间可能会泄漏,联机数据库扫描会发现并恢复丢失的空间。 系统的设计预期是每七天完全扫描一次每个数据库。

丢失刷新检测

当磁盘子系统/操作系统在完成时返回的数据库写入操作实际上未写入磁盘或写入错误位置时,将发生丢失刷新。 丢失刷新事件可能导致数据库逻辑损坏,因此为了防止丢失刷新导致数据丢失,ESE 包括丢失的刷新检测机制。 当数据库页写入被动副本时,会对活动副本上丢失的刷新执行检查。 如果检测到丢失的刷新,ESE 可以使用页面修补进程修复进程。

单页还原

单页还原(也称为 页面修补)是一个自动过程,其中损坏的数据库页被来自正常副本的健康副本替换。 损坏页面的修复过程取决于数据库副本是主动的还是被动的。 当活动数据库副本遇到损坏的页面时,它可以从其中一个副本复制页面,前提是它复制的页面是最新的。 此过程是通过将页面请求放入日志流来完成的,日志流是邮箱数据库复制的基础。 副本一遇到页面请求,就会通过将页面副本发送到请求的数据库副本来响应。 单页还原还提供异步通信机制,使活动用户能够从副本请求页面,即使副本当前处于脱机状态。

如果被动数据库副本(包括滞后的数据库副本)出现损坏,因为这些副本始终位于其活动副本后面,因此始终可以安全地将任何页面从活动副本复制到被动副本。 被动数据库副本本质上是高度可用的,因此在页面修补过程中,日志重播将暂停,但日志复制仍在继续。 被动数据库副本从活动副本中检索损坏页面的副本,等待满足最大要求的日志生成要求的日志文件被复制和检查,然后修补损坏的页面。 修补页面后,日志重播将恢复。 该过程对于滞后的数据库副本是相同的,只是滞后的数据库首先重播实现可修补状态所需的所有日志文件。

邮箱复制服务

移动邮箱是管理大规模电子邮件服务的关键部分。 始终有更新的技术和硬件以及版本升级来处理,因此,拥有一个强大的受限制系统,使我们的工程师能够完成这项工作,同时确保邮箱对用户 (保持透明,确保他们在整个过程中保持联机) 是关键,并确保进程随着邮箱越来越大而正常扩展。

Exchange 邮箱复制服务 (MRS) 负责在数据库之间移动邮箱。 在移动过程中,MRS 对邮箱中的所有项目执行一致性检查。 如果发现一致性问题,MRS 将更正问题,或跳过损坏的项,从而从邮箱中删除损坏。

由于 MRS 是Exchange Online的组成部分,因此我们可以对其代码进行更改,以解决将来检测到的新形式的损坏问题。 例如,如果我们检测到 MRS 无法修复的一致性问题,我们可以分析损坏情况,更改 MRS 代码,并在了解如何) 时更正不一致 (。

日志文件检查

Exchange 数据库生成的所有事务日志文件都接受多种形式的一致性检查。 创建日志文件时,首先要执行的是写入位模式,然后执行一系列日志写入。 此结构使Exchange Online能够执行一系列检查, (丢失刷新、CRC 和其他检查) 在写入时验证每个日志文件,并在复制时再次对其进行验证。

在复原文件系统上部署

为了帮助防止在文件系统级别发生损坏,Exchange Online部署在复原文件系统 (ReFS) 分区上,以提供改进的恢复功能。 ReFS 是Windows Server 2012及更高版本中的文件系统,旨在增强数据损坏的复原能力,从而最大限度地提高数据可用性和完整性。 具体而言,ReFS 改进了元数据的更新方式,为数据提供更好的保护并减少了数据损坏情况。 它还使用校验和来验证文件数据和元数据的完整性,确保容易发现和修复数据损坏。

Exchange Online利用多个 ReFS 优势:

  • 数据完整性更复原意味着数据损坏事件更少。 减少损坏事件数意味着不必要的数据库重新分析更少。
  • 元数据上运行的校验和能够更快、更确定地检测损坏情况,从而在数据卷上发生灰色故障之前修复客户数据损坏。
  • 设计用于处理大型数据集(pabytes 和更大),且不影响性能
  • 支持Exchange Online使用的其他功能,例如 BitLocker 加密。

Exchange Online还受益于其他 ReFS 功能:

  • 完整性 (完整性流) - ReFS 存储数据的方式可保护数据免受通常可能导致数据丢失的许多常见错误的危害。 Microsoft 365 搜索使用完整性流来帮助早期磁盘损坏检测和文件内容校验和。 当写入操作因停电等原因导致写入操作未完成时,该功能还可以减少“写入” (导致的损坏事件,等等) 。
  • 可用性 (抢救) - ReFS 将数据的可用性设置为优先级。 从历史上看,文件系统通常容易受到数据损坏的影响,这会要求系统脱机进行修复。 尽管这种情况很少见,但如果确实发生损坏,ReFS 会实现抢救,该功能可从实时卷上的命名空间中删除损坏的数据,并确保良好的数据不会受到不可修复的损坏数据的不利影响。 应用“抢救”功能并将数据损坏隔离到Exchange Online数据库卷意味着我们可以在损坏和修复操作之间使未受影响的卷上未受影响的数据库保持正常运行。 此结构可提高通常受此类磁盘损坏问题影响的数据库的可用性。