社区培训的可靠性

社区培训是一种基于云的解决方案,支持高质量、高效地提供大规模、范围广泛的培训计划。 社区培训是由 Azure 提供支持的在线学习平台,使各种规模和类型的组织能够为其内部和外部社区(例如一线工作者、扩充的劳动力、合作伙伴生态系统、志愿者网络、计划受益人等)运行大规模培训计划。

本文介绍了社区培训中的可靠性支持,并涵盖了具有可用性区域的区域复原能力以及灾难恢复和业务连续性。 有关 Azure 中可靠性原则的更详细概述,请参阅 Azure 可靠性

可用性区域支持

控制平面

控制平面在主要可用性区域中是区域冗余的。

数据平面

Azure 可用性区域是 Azure 区域内的物理位置,可提供更高的可用性和数据中心故障保护。 每个局部区域由一个或多个数据中心组成,这些数据中心配置了独立的电源、散热系统和网络。 转到此处获取更多详细信息

社区培训使用 Azure 可用性区域在 Azure 区域中提供高可用性和容错能力。 它提供分区和区域冗余高可用性。 客户可以选择任一冗余选项。

先决条件

社区培训提供以下 SKU:

  1. 标准(用户规模较小)
  2. 高级(用户规模大)

支持社区培训的区域列表:

美洲 欧洲 中东 非洲 亚太区
美国西部 2 英国南部 东南亚
美国中南部 西欧 澳大利亚东部
美国东部 2 北欧
美国东部 瑞典中部
美国西部 3

注意:在次要区域中,将提供区域性可用性。

区域故障转移支持

社区培训在创建时提供冗余配置。 客户应选择区域冗余高可用性,以避免任何分区失败。 社区培训在内部使用标准 Azure 服务,例如应用服务、Azure SQL 等。选择分区冗余选项将创建基础 Azure 资源的分区冗余产品/服务,这将负责容错。

区域故障体验

局部区域

如果客户将社区培训配置为分区,并且任何区域处于关闭状态,则社区培训在区域关闭期间将不可用。 服务可用性取决于各种因素(数据中心关闭、特定服务在该区域中不可用等),整个服务或部分功能可能不可用。

区域冗余

在区域范围的中断场景中,用户不应对区域冗余部署中的预配资源产生任何影响。 在区域范围的中断期间,客户应准备好在与预配资源通信时经历短暂的中断。 在这种情况下,客户端通常会收到 409 错误代码,重试逻辑尝试按适当的间隔重新建立连接。 新请求将定向到正常节点,对用户没有任何影响。 在区域范围的中断期间,用户能够创建新资源并成功缩放现有资源。

灾难恢复和业务连续性

控制平面:

具有配对区域的区域:如果发生灾难,控制平面将手动故障转移到配对区域。 在发生故障转移之前,服务可能会出现降级。 故障转移后,将支持只读操作,直到灾难区域重新联机。 在重新联机后,服务将手动故障回复到原始区域,所有操作都将恢复。 没有配对区域的区域:产品在没有配对区域的区域中不可用。

RPO:10 分钟

RTO:24 小时*

数据平面:

社区培训提供 Microsoft 托管灾难恢复。 在 Azure 中创建社区培训实例时,客户必须启用灾难恢复。 在客户启用灾难恢复后,我们会将存储和数据库的备份保留在配对区域中。

注意

灾难恢复功能仅适用于支持配对区域的区域。

  • RPO:12 小时
  • RTO:48 小时

RTO 取决于数据库和存储大小、配对区域、数据库或存储 VM 容量 (SKU) 之间的延迟。

社区培训 RPO 取决于基础 Azure 资源,例如 Azure SQL 和 Azure 存储。 转到此处获取更多详细信息

一旦在任何区域检测到社区培训实例关闭,我们就会征得客户的同意,以故障转移到配对区域,并解释灾难恢复期间可用的功能列表。 在获得客户的同意后,他们的社区培训实例将故障转移到配对区域。

在配对区域中,以下功能将不可用:

  1. 在主站点正常运行之前,学习者将无法使用音频/视频功能(因为从 1 月起,AMS 将从非热门区域删除其支持)。

  2. 建议客户在主站点正常运行之前避免媒体上传操作。

服务中断检测、通知和管理

社区培训运行状况检查将检测任何服务的中断。 在检测到中断时,如果启用了灾难恢复,我们将与客户联系。 在收到客户的同意后,灾难恢复过程将由社区培训团队管理。 灾难恢复既不是主动-主动,也不是主动-被动,它从 Azure 服务的最新可用备份进行恢复。 我们从数据备份手动在配对区域中创建所有资源。

容量和主动灾难恢复复原能力

Microsoft 及其客户按共担责任模型运营。 在任何区域关闭后,不仅社区培训实例已迁移到配对区域,而且还会迁移其他产品和客户工作负载。 这可能会导致配对区域或数据中心中的资源短缺。 因此,灾难恢复可用性取决于基础 Azure 资源的可用容量等。

如果有进一步的查询,请通过 HelpDesk 联系我们