你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure VMware 解决方案 提供私有云,其中包含从专用裸机 Azure 基础结构生成的 VMware vSphere 群集。 可以从本地环境迁移工作负荷、部署新的虚拟机(VM),以及从私有云使用 Azure 服务。 可以使用 VMware 和 Azure 本机功能的组合来实现工作负载的高可用性和复原能力。
使用 Azure 时, 可靠性是共同的责任。 Microsoft提供了一系列功能来支持复原和恢复。 你负责了解这些功能如何在你使用的所有服务中工作,并选择满足业务目标和运行时间目标所需的功能。
本文介绍如何增强 Azure VMware 解决方案的抗风险能力,以应对潜在的中断和问题,包括瞬态故障、可用性区域中断和区域中断。 它还介绍了如何使用备份从其他类型的问题中恢复,并重点介绍了有关 Azure VMware 解决方案服务级别协议(SLA)的一些关键信息。
生产部署建议
Azure VMware 解决方案部署需要跨一系列区域进行仔细规划,并且通常需要多个 Azure 服务。 有关详细指南,请参阅 Well-Architected Framework 中的 Azure VMware 解决方案工作负载 。
可靠性体系结构概述
Azure VMware 解决方案使用具有 VMware vSphere 群集的超融合基础结构。
部署 Azure VMware 解决方案时,部署具有一个或多个群集的 私有云。 每个群集都包含 ESXi 主机,这些主机通过 vSAN 提供计算、存储,以及通过 VMware NSX 进行网络。 有两代 Azure VMware 解决方案:
- 第 1 代对节点使用专用裸机硬件,并使用专用网络方法。 有关关键概念的详细信息,请参阅 Azure VMware 解决方案私有云和群集概念。
- 第 2 代 使用标准 Azure 虚拟机类型和 Azure 虚拟网络。 此体系结构简化了网络体系结构,提高了数据传输速度,减少了工作负载的延迟,并改进了访问其他 Azure 服务时的性能。
容错
Azure VMware 解决方案提供了多种机制来处理基础结构和应用程序级别的故障:
vSphere 高可用性(HA):vSphere HA 监视 ESXi 主机和 VM。 如果主机失败,它会自动重启正常运行的主机上受影响的 VM。 vSphere HA 默认启用,并为单个节点故障保留计算和内存容量。
vSAN 容错:vSAN 存储策略通过跨主机维护多个数据副本来保护存储级暂时性故障。 如果存储路径或磁盘遇到暂时性故障,vSAN 会自动处理故障切换至健康的存储路径。
网络冗余: Azure VMware 解决方案提供冗余的网络路径和多个 VMkernel 网络适配器来处理网络级暂时性故障。
暂时性故障的复原能力
暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。 应用程序通常可以通过重试受影响的请求来处理暂时性故障,这一点很重要。
与任何云托管的 API、数据库和其他组件通信时,所有云托管的应用程序都应遵循 Azure 暂时性故障处理指南。 有关详细信息,请参阅有关处理暂时性故障的建议。
对于在 Azure VMware 解决方案 VM 上运行的应用程序,请实施标准的暂时性故障处理做法:
- 配置适当的重试策略并使用指数退避
- 建议在外部服务调用中使用断路器模式
- 监视应用程序运行状况并实现正常降级
- 尽可能设计无状态应用程序以减少 VM 重启的影响
应对可用区故障的弹性
可用性区域 是 Azure 区域内物理上独立的数据中心组。 当某个区域发生故障时,服务可以切换到其他可用的区域。
Azure VMware 解决方案第 1 代通过 拉伸群集支持可用性区域,这些群集跨区域中的两个可用性区域分配 ESXi 主机。 Microsoft选择要使用的区域。 群集在两个区域的主动-主动配置中运行,vSAN 也跨多个区域。 可以指定是否将每个工作负荷部署到一个或两个区域。
见证节点会自动部署到第三个可用区,为脑裂场景提供仲裁。 Microsoft自动管理见证节点。
标准群集是跨区域不延伸的标准群集。 在标准群集中,群集及其所有 ESXi 主机被视为 非区域 或 区域。 非区域群集可能放置在区域中的任何可用性区域中,Microsoft选择该区域。 如果区域中的可用性区域遇到服务中断,则非区域群集和主机可能位于受影响的区域中,并且可能会遇到停机。
Azure VMware 解决方案第 2 代支持私有云 的区域性 部署。 配置区域私有云时,其每个群集及其所有 ESXi 主机都会部署到你选择的单个可用性区域中。
区域性私有云无法防范可用性区域故障。 可以将多个私有云部署到单独的可用性区域,以实现更高的复原能力,但你负责独立部署和配置每个私有云。
如果未选择可用性区域,则私有云、其群集及其所有 ESXi 主机被视为 非区域 或 区域。 非区域群集可能放置在区域中的任何可用性区域中,Microsoft选择该区域。 如果区域中的可用性区域遇到服务中断,则非区域群集可能位于受影响的区域中,并且可能会遇到停机。
若要查看关于其他代可用性区域支持的信息,请选择在本页顶部的相应代。
要求
区域支持: 拉伸群集在支持拉伸群集配置的所选 Azure 区域中可用。 请检查 Azure 区域可用性区域到托管类型映射表 以确认当前区域的支持情况。
最小主机: 在两个可用性区域(每个区域三个主机)中部署至少 6 个主机,以启用拉伸群集配置。 当您进行缩容或扩容时,必须成对进行,以确保每个区域中的主机数量相等。
主机 SKU: AV36、AV36P 和 AV52 主机类型支持拉伸群集。 AV64 SKU 不支持拉伸群集。
区域支持: 可以在 支持 Azure VMware 解决方案第 2 代 的区域部署区域私有云,同时 支持可用性区域。
注意事项
区域中的每个可用性区域都可以支持特定的主机类型。 有关每个区域中可用的主机类型的详细列表,请参阅 Azure 区域可用性区域到主机类型映射表。
成本
无论群集的可用性区域配置如何,群集中的每个节点都会产生费用。 有关详细的定价信息,请参阅 Azure VMware 解决方案定价。
配置可用性区域支持
部署新群集: 在受支持的区域中创建新的 Azure VMware 解决方案私有云时,可以在部署期间将其配置为拉伸群集。 此配置自动跨两个可用性区域分配主机。 有关详细信息,请参阅 部署 vSAN 拉伸群集。
现有群集: 不能将标准群集转换为拉伸群集,也不能将拉伸群集转换为标准群集。 相反,需要部署新群集并迁移工作负荷。
部署新群集: 在受支持的区域中创建新的 Azure VMware 解决方案私有云时,可以选择其可用性区域。
现有群集: 无法更改现有群集的可用性区域配置。 相反,需要部署新群集并迁移工作负荷。
所有区域正常时的行为
本部分介绍当集群伸展且所有可用性区域都正常运行时会发生什么情况。
跨区域作: VM 可以在任一可用性区域中的主机上运行。 可以使用 vSphere DRS 关联和反关联规则来控制 VM 放置,以针对性能或可用性要求进行优化。
跨区域数据复制: vSAN 跨可用性区域同步复制数据。 在完成之前,两个区域都会确认每个写入操作,以确保数据的一致性和完整性。
本部分介绍在区域私有云中部署群集时会发生什么情况,并且所有可用性区域都正常运行。
跨区域操作: VM 在群集可用性区域中的主机上运行。
跨区域数据复制: 不会将数据复制到另一个区域。
区域故障期间的行为
本部分描述了当群集被拉伸且发生可用性区域中断时可以预期的情况。
- 检测和响应: Azure VMware 解决方案管理对区域故障的基础结构级响应。 vSphere HA 会根据需要自动检测区域故障并启动 VM 重启过程。
- 通知:当区域关闭时,Microsoft不会自动通知你。 但是,可以使用 Azure 资源运行状况 监视单个资源的运行状况,并且可以设置 资源运行状况警报 来通知问题。 还可以使用 Azure 服务运行状况 来了解服务的总体运行状况,包括任何区域故障,还可以设置 服务运行状况警报 来通知问题。
活动请求: 在故障的可用性区域中运行的任何 VM 将在幸存的可用性区域中的主机上被重启。 对受影响的 VM 的活动请求和连接将终止,客户端负责重试它们。
预期的停机时间: 正常区域中重启失败的 VM 的时间通常为几分钟,具体取决于 VM 配置和启动过程。 拉伸群集在容量减少的情况下仍可正常运行。
如果失败的可用性区域包含见证节点,则见证节点将无法访问。 只要有足够的数据副本可用,数据主机和正在运行的工作负荷将继续运行,而不会立即丢失数据。 但是,vSAN 在此状态下会失去仲裁意识,导致它无法安全地做出放置和恢复决策,并导致某些操作被阻止,例如 VM 故障后开机、重新均衡和修复。
预期数据丢失: 由于 vSAN 在区域之间使用同步复制,因此在区域故障期间不会丢失任何数据。
重新分发: vSphere DRS 会自动将 VM 工作负荷重新分发到生存的可用性区域。 通过 VMware NSX 进行的网络流量路由会自动适应新的 VM 放置。
本部分描述当您的群集部署在区域私有云且发生可用性区域中断时预期的情况。
- 检测和响应: 需要检测可用性区域的丢失。 如有必要,可以启动到另一个可用性区域中预创建的辅助群集的故障转移。
- 通知:当区域关闭时,Microsoft不会自动通知你。 但是,可以使用 Azure 资源运行状况 监视单个资源的运行状况,并且可以设置 资源运行状况警报 来通知问题。 还可以使用 Azure 服务运行状况 来了解服务的总体运行状况,包括任何区域故障,还可以设置 服务运行状况警报 来通知问题。
活动请求: 对受影响的 VM 的活动请求和连接将终止,客户端负责重试它们。
预期的停机时间: 当某个区域不可用时,群集及其工作负荷在可用性区域恢复之前不可用。
预期数据丢失: 受影响区域中的数据在恢复之前不可用。
分配: 如果需要,你负责将流量切换到正常区域中的其他群集。
区域恢复
当可用性区域恢复时,vSphere DRS 可以根据 DRS 配置和关联规则选择性地将 VM 重新分发回恢复的区域。 还可以使用 vMotion 操作手动控制 VM 放置。
当可用性区域恢复时,区域中的群集和主机将再次可用。 你负责工作负荷所需的任何区域恢复过程和数据同步。
测试区域故障
可以通过以下方式模拟区域故障:
使用 vSphere 将主机置于维护模式,以模拟区域级故障。
验证备份和监视系统在模拟故障期间将继续正常运行。
- 测试 VM 重启和网络路径更改的应用程序复原能力,尤其是在具有跨区域扩展群集或在不同区域的单独群集中部署应用程序时。
由于 Azure VMware 解决方案管理对区域故障的基础结构响应,因此你主要需要测试应用程序的 VM 重启响应。
你负责对区域故障的任何基础结构响应,例如故障转移到不同区域或区域中的另一个群集。 确保彻底测试响应过程。
对区域范围的故障的复原能力
每个 Azure VMware 解决方案群集部署在单个 Azure 区域中。 如果区域不可用,则私有云及其中的所有资源都不可用。
但是,还可以设计自定义多区域解决方案,这些解决方案结合了不同的方法或与现有基础结构集成以满足特定的业务需求和恢复目标。
用于复原的自定义多区域解决方案
若要使用 Azure VMware 解决方案实现多区域复原,需要在多个区域中部署单独的私有云,并实现故障转移和其他灾难恢复解决方案。
有一系列支持不同要求的选项。 有关详细信息,请参阅 Azure VMware 的第三方备份和灾难恢复解决方案:限制、兼容性和已知问题。
备份和还原
如果已启用,Azure VMware 解决方案会自动备份管理组件(vCenter Server、NSX Manager 和 HCX 管理器)。 若要从这些管理备份还原,请创建 Azure 支持请求。
对于 VM 工作负荷,Azure VMware 解决方案支持多种备份方法。 有关详细信息,请参阅 Azure VMware 解决方案 VM 的备份解决方案。
服务维护期间的系统弹性能力
Azure 执行自动平台维护以应用安全更新、部署新功能并提高服务可靠性。
若要了解维护对 Azure VMware 解决方案组件的影响,并了解负责维护的组件以及Microsoft维护的组件,请参阅 Azure VMware 解决方案私有云维护最佳做法。
可以为群集配置维护时段,以减少影响生产工作负荷的维护的可能性。 有关详细信息,请参阅规划 Azure VMware 解决方案的自助维护(公共预览版)。
服务级别协议
Azure 服务的服务级别协议 (SLA) 描述了每个服务的预期可用性,以及解决方案为实现该可用性预期而必须满足的条件。 有关详细信息,请参阅 联机服务的 SLA。
Azure VMware 解决方案为工作负荷基础结构和管理作提供不同的可用性 SLA。
配置为跨地域群集的群集具有更高的业务基础架构可用性 SLA。
但是,若要符合可用性 SLA 的条件,必须以特定方式配置群集。 有关详细信息,请参阅 SLA 文本。