你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 存储操作中的可靠性

本文介绍了 Azure 存储操作的可靠性支持,并介绍了可用性区域的区域内部复原能力以及跨区域灾难恢复和业务连续性。 有关 Azure 中可靠性原则的更详细概述,请参阅 Azure 可靠性

Azure 存储操作是一个无服务器框架,可用于跨多个存储帐户对数百万个对象执行常见数据操作。 服务本身是区域性的,没有 SKU 或对可用性区域的支持。 但是,服务的控制平面自动支持区域冗余。 数据平面还可以支持冗余,具体取决于存储帐户是否在区域冗余配置上运行。

可用性区域支持

可用性区域 是每个 Azure 区域内物理上独立的数据中心群组。 当一个区域发生故障时,服务可以故障转移到其他区域。

虽然 Azure 存储操作服务是区域性的且不提供 SKU 或可用性区域,但区域冗余可以从控制平面获得以及有条件地从数据平面获得:

  • 服务的控制平面是区域冗余的。 当某个地区中的区域发生故障时,控制平面仍然可用。 在出现区域关禁闭场景期间,你可以继续管理任务定义和分配。

  • 数据平面(任务分配执行)从父存储帐户继承区域属性。 如果将存储帐户部署到故障区域,则该帐户会变得不可用,并且从客户的角度来看,数据计划不可用。 如果存储帐户是区域冗余的,则该帐户将继续可用,服务将继续对该帐户执行操作。

区域故障体验

在区域关闭场景中,存储操作服务继续可用。 任务的进度取决于运行任务的存储帐户的可用性区域支持。 如果帐户未受到已关闭区域的影响,任务将继续执行。 否则,任务会失败。

区域中断准备和恢复

存储操作服务不是区域性的,但存储帐户是。 如果存储帐户受到区域中断的影响,则分配给该帐户的存储任务会失败。 区域和存储帐户变得可用后,计划的任务将继续按计划运行。 如果该任务配置为运行一次,则可能需要安排该任务再次运行。

跨区域灾难恢复和业务连续性

灾难恢复(DR)是指组织用来从高影响事件(例如自然灾害或导致停机和数据丢失的部署)中恢复的做法。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始创建灾难恢复计划之前,请参阅 有关设计灾难恢复策略的建议

对于灾难恢复,Microsoft使用共同责任模型。 在此模型中,Microsoft确保基线基础结构和平台服务可用。 但是,许多 Azure 服务不会自动复制数据,也不会从失败的区域回退到另一个已启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 在 Azure 平台即服务 (PaaS) 产品/服务上运行的大多数服务都提供支持 DR 的功能和指南。 可以使用服务特定的功能来支持快速恢复,从而帮助制定灾难恢复计划。

当发生存储帐户故障转移时,具有 GRS 和 GZRS 的存储帐户会将数据复制到次要区域。 存储作的业务连续性在很大程度上取决于目标存储帐户的冗余配置。 使用异地冗余配置的存储帐户受益于自动故障转移过程。 这种自动管理可确保将来的任务分配运行迭代(无论是单次还是反复执行)在次要区域中执行,而不会出现问题。 但是,故障转移时正在进行的存储任务可能会遇到故障。 新的存储任务和存储任务分配将继续按预期工作。

对存储帐户的一致监视至关重要。 通过故障转移,应该彻底检查任务报告和监视,以验证所有 Blob 操作是否成功完成,并识别任何需要注意的差异。

服务中断检测、通知和管理

当服务本身出现中断时,存储任务不会发送任何通知。 检查存储任务的状态并在服务/区域恢复后重试任务非常重要。

后续步骤