你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Cosmos DB for MongoDB vCore 中的可靠性

适用对象: MongoDB vCore

本文详细介绍了可用性区域的区域复原能力,以及跨区域灾难恢复和业务连续性对 Azure Cosmos DB for MongoDB vCore 的支持。

有关 Azure 可靠性的体系结构概述,请参阅《Azure 可靠性》。

可用性区域支持

Azure 可用性区域是每个 Azure 地区内的至少三个在物理上独立的数据中心组。 每个区域中的数据中心都配备了独立的电源、冷却系统和网络基础结构。 在本地区域发生故障的情况下,设计可用性区域,以便一个区域受到影响时,其余两个区域支持区域服务、容量和高可用性。

故障范围包括软件和硬件故障,以及地震、洪水和火灾等事件。 容错是通过 Azure 服务的冗余和逻辑隔离来实现的。 有关 Azure 中可用性区域的详细信息,请参阅地区和可用性区域

已启用 Azure 可用性区域的服务旨在提供适当级别的可靠性和灵活性。 可以通过两种方式进行相关配置。 可以采用区域冗余配置,实现跨区域自动复制,也可以采用区域性配置,将实例固定到特定区域。 还可以将这些方法结合。 有关区域式与区域冗余体系结构的详细信息,请参阅有关使用可用性区域和地区的建议

若要获得可用性区域支持,必须启用高可用性 (HA)。

HA 通过维护群集中每个分片的备用副本,从而避免数据库停机。 如果某个分片关闭,Azure Cosmos DB for MongoDB vCore 会将传入连接从失败的分片切换到其备用副本。

在支持可用性区域的区域中启用 HA 时,HA 副本分片将预配到与其主分片不同的可用性区域中。 除非主分片发生故障,否则 HA 副本不会接收来自客户端的请求。

如果禁用 HA,每个分片也有其自己的本地冗余存储 (LRS),其中 3 个同步副本由 Azure 存储服务维护。 如果发生单个副本故障,Azure 存储服务将检测故障,并透明地重新创建相关数据。 有关 LRS 存储持续性,请参阅“冗余选项摘要”。 但是,如果发生区域故障,则将面临长时间停机和可能的数据丢失的风险。

创建启用可用性区域的资源

若要启用可用性区域,必须在创建群集时,或在 Azure 门户中现有群集的缩放部分中启用高可用性 (HA)

跨区域灾难恢复和业务连续性

灾难恢复 (DR) 是指从会导致故障时间和数据丢失的高影响事件(例如自然灾害或部署失败)中恢复。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始考虑创建灾难恢复计划之前,请参阅设计灾难恢复策略的建议

在 DR 方面,Microsoft 使用责任共担模型。 在共担责任模型中,Microsoft 会确保基线基础结构和平台服务可用。 同时,许多 Azure 服务不会自动复制数据,也不会从失败区域回退以交叉复制到另一个启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 大多数在 Azure 平台即服务 (PaaS) 产品/服务上运行的服务都提供支持 DR 的功能和指导,你可以使用特定于服务的功能来支持快速恢复,从而帮助制定 DR 计划。

Azure Cosmos DB for MongoDB vCore 未提供内置的自动故障转移或灾难恢复。 在解决方案扩展过程中,规划高可用性是其中关键一步。

单区域地理位置中的灾难恢复

为了最大化运行时间,请提前规划以维持业务连续性并使用 Azure Cosmos DB for MongoDB vCore 为灾难恢复做好准备。

虽然 Azure 服务旨在最大程度地提高运行时间,但可能会出现计划外服务中断。 灾难恢复计划可确保用户有适当的策略来处理区域服务中断。

Azure Cosmos DB for MongoDB vCore 会定期自动备份数据。 自动备份不会影响数据库操作的性能或可用性。 所有备份都会在后台自动执行,并独立于存储服务中的源数据进行存储。 这些自动备份非常有用在下列情况下很有用:意外删除或修改了资源,后来又需要原始版本。

根据群集当前处于活动状态还是最近才被删除,自动备份将以不同的时间间隔保留。

保留期
活动的群集 35
已删除的群集 7

旨在实现高可用性

应为运行生产工作负荷的关键 Azure Cosmos DB for MongoDB vCore 群集启用高可用性 (HA)。 在启用 HA 的群集中,每个分片都充当主分片,同时在另一个可用性区域中预配热备分片。 默认情况下,主分片和辅助分片之间的复制是同步的。 在收到来自数据库的响应之前,主分片和辅助分片(热备用分片)上都会保留对数据库所做的任何修改。

该服务可对群集的每个主分片和辅助分片进行运行状况检查并保持检测信号。 如果主分片由于区域或地区中断而变得不可用,则辅助分片将自动升级为新的主分片,并为新的主分片构建后续辅助分片。 此外,如果辅助分片变为不可用状态,服务会自动创建一个新的辅助分片,其中包含来自主分片的完整数据副本。

如果服务触发从主分片到辅助分片的故障转移,连接将无缝路由到新的主分片。

如果发生故障转移,主分片和辅助分片之间的同步复制保证数据不会丢失。

后续步骤