你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

设计 vSAN 拉伸群集

本文介绍了如何为 Azure VMware 解决方案私有云设计 vSAN 拉伸群集。

背景

Azure 的全球基础结构划分为区域。 每个区域都支持给定地理位置的服务。 在每个区域中,Azure 会生成独立冗余的基础结构岛,称为可用性区域 (AZ)。 AZ 充当资源管理的边界。 AZ 可用的计算和其他资源是有限的,可能因客户需求而耗尽。 生成的 AZ 可独立复原,即一个 AZ 中发生故障不会影响其他 AZ。

在 Azure VMware 解决方案中,部署在标准 vSphere 群集中的 ESXi 主机通常位于一个 Azure 可用性区域 (AZ) 中,并受到 vSphere 高可用性 (HA) 的保护。 但是,它并不能保护工作负载免受 Azure AZ 故障的影响。 为了防范 AZ 故障,可以启用一个跨两个单独可用性区域的 vSAN 群集,称为 vSAN 拉伸群集

扩展群集支持跨两个 AZ 配置 vSAN 容错域,用于通知 vCenter Server 每个可用性区域 (AZ) 中都有主机。 为清楚起见,每个容错域都以其所在的 AZ 命名。 跨一个区域中的两个 AZ 拉伸 vSAN 群集时,如果某个 AZ 发生故障,它将被视作 vSphere HA 事件,虚拟机将在另一个 AZ 中重启。

拉伸群集的优势:

  • 提高应用程序可用性。
  • 为企业应用程序提供零恢复点目标 (RPO) 功能,而无需重新设计它们,或部署昂贵的灾难恢复 (DR) 解决方案。
  • 根据设计,具有拉伸群集的私有云可提供 99.99% 的可用性,因为它可针对 AZ 故障进行复原。
  • 使客户能够关注核心应用程序需求和功能,而不是基础结构的可用性。

为了防止出现脑裂情况并帮助衡量站点运行状况,在第三个 AZ 中创建了托管 vSAN 见证。 由于每个 AZ 中都有一份数据副本,vSphere HA 可尝试通过简单地重启虚拟机来从故障中恢复。

下图描绘了一个跨两个 AZ 的 vSAN 群集。

图中显示了在第三个可用性区域中创建的托管 vSAN 拉伸群集,其中的数据将复制到这三个可用性区域中。

总之,除了 Azure 基础结构的规模和灵活性之外,拉伸群集还提供相同的受信任控件和功能来简化保护需求。

请务必了解拉伸群集私有云只额外提供一层复原能力,并不能解决所有故障情况。 例如,拉伸群集私有云:

  • 不能防范 Azure 中的区域级故障或者因应用程序问题或存储策略计划不佳导致的数据丢失情况。
  • 提供对单个区域故障的防护,但其设计不是为了防范双重或渐进式故障。 例如:
    • 尽管构造中内置了各种冗余层,但如果 AZ 间故障导致辅助站点分区,vSphere HA 也会开始关闭辅助站点上的工作负载 VM。

      下图显示了辅助站点分区场景。

      此图显示了 vSphere 高可用性关闭辅助站点上的工作负载虚拟机。

    • 如果辅助站点分区进展为主站点故障或导致完全分区,vSphere HA 将尝试重启辅助站点上的工作负载 VM。 如果 vSphere HA 尝试重启辅助站点上的工作负载 VM,则会使工作负载 VM 处于不稳定状态。

      下图显示了首选站点故障和完整的网络分区方案。

      图中显示了以下表现的 vSphere 高可用性:当首选站点发生故障时,尝试重启辅助站点上的工作负载虚拟机。

      图中显示了以下表现的 vSphere 高可用性:当发生完全网络隔离时,尝试重启辅助站点上的工作负载虚拟机。

应当注意,这些类型的故障(虽然罕见)不在拉伸群集私有云提供的保护范围之内。 由于这些罕见的故障类型,应将拉伸群集解决方案视为依赖于 vSphere HA 的多 AZ 高可用性解决方案。 请务必了解,拉伸群集解决方案并非为了取代全面的多区域灾难恢复策略,后者可用于确保应用程序可用性。 原因是灾难恢复解决方案通常在单独的 Azure 区域中具有单独的管理和控制平面。 Azure VMware 解决方案拉伸群集具有一个管理和控制平面,该平面横跨同一 Azure 区域中的两个可用性区域。 例如,一个 vCenter Server、一个 NSX 管理器群集、一个 NSX 边缘 VM 对。

拉伸群集的上市区域

Azure VMware 解决方案拉伸群集可在以下区域使用:

  • 英国南部(AV36 和 AV36P)
  • 欧洲西部(AV36 和 AV36P)
  • 德国中西部(在 AV36 和 AV36P 上)
  • 澳大利亚东部 (AV36P)
  • 美国东部 (AV36P)

支持的存储策略

支持以下 SPBM 策略,且为群集启用的默认策略为“双站点镜像”PFTT 和“RAID 1 (镜像)”SFTT:

  • 站点容错设置 (PFTT):
    • 双站点镜像
    • 无 - 保留首选数据
    • 无 - 保留非首选项上的数据
  • 允许的本地故障数 (SFTT):
    • 1 个故障 - RAID 1(镜像)
    • 1 个故障 - RAID 5(擦除编码),每个 AZ 中至少需要 4 个主机
    • 2 个故障 - RAID 1(镜像)
    • 2 个故障 - RAID 6(擦除编码),每个 AZ 中至少需要 6 个主机
    • 3 个故障 - RAID 1(镜像)

常见问题解答

是否计划了任何其他区域?

目前,有四个区域支持使用拉伸群集。

Azure VMware 解决方案会为拉伸群集提供哪种 SLA?

使用 vSAN 拉伸群集创建的私有云旨在提供 99.99% 的基础架构可用性承诺(如果存在以下情况):

  • 群集中至少部署 6 个节点(每个可用性区域中 3 个)
  • 工作负载 VM 使用 VM 存储策略“双站点镜像”PFTT,且 SFTT 为 1 时。
  • 若要实现可用性目标,需要符合 Azure VMware 解决方案的 SLA 详细信息中提供的“其他要求”

能否选择在其中部署私有云的可用性区域?

否。 在两个可用性区域之间创建一个拉伸群集,而第三个区域用于部署见证节点。 因为所有区域实际上都用于部署拉伸群集环境,所以并没有为客户提供选择。 相反,客户选择在创建私有云时将主机部署在多个 AZ 中。

我应该注意哪些限制?

  • 创建带有拉伸集群的私有云后,无法将其更改为标准群集私有云。 同样,标准群集私有云在创建后也不能更改为拉伸群集私有云。
  • 拉伸群集的横向扩展和横向缩减只能成对发生。 拉伸群集环境中至少支持 6 个节点,最多支持 16 个节点。 有关详细信息,请参阅 Azure 订阅和服务限制、配额与约束
  • 使用中等 vSphere HA 优先级重启客户工作负载 VM。 管理 VM 具有最高重启优先级。
  • 该解决方案依赖于 vSphere HA 和 vSAN 进行重启和复制。 恢复时间目标 (RTO) 取决于 vSphere HA 在单个 AZ 发生故障后在幸存的 AZ 上重启 VM 所需的时间。
  • 当前在拉伸群集环境中不受支持:
    • 最近发布的功能,例如从公共 IP 到下游的 NSX 边缘和外部存储(如 ANF 数据存储)。
    • 灾难恢复加载项,例如 VMware SRM、Zerto 和 JetStream。
  • 在 Azure 门户中打开针对以下情况的支持工单(请务必选择“拉伸群集”作为“问题类型”):
    • 将私有云连接到拉伸群集私有云。
    • 连接一个区域中的两个拉伸群集私有云。

可用性区域 (AZ) 之间的延迟预计是多少?

在托管工作负载 VM 的 AZ 之间,vSAN 拉伸群集在 5 毫秒的往返时间 (RTT) 内运行,带宽为 10 Gb/s 或更高。 Azure VMware 解决方案拉伸群集部署遵循了这一指导原则。 在部署具有严格延迟要求的应用程序(SFTT 为使用同步写入的双站点镜像)时,请考虑这些信息。

能否在私有云中混合拉伸群集和标准群集?

否。 同一私有云中不支持拉伸群集和标准群集的混合。 创建私有云时,会选择拉伸群集或标准群集环境。 创建带有拉伸集群的私有云后,将假设在该私有云中创建的所有群集本质上都是拉伸群集。

解决方案的成本是多少?

我们将根据私有云中部署的节点数向客户收费。

见证节点和 AZ 间流量是否收费?

否。 我们不会因见证节点和 AZ 间流量向客户收费。 见证节点完全由服务管理,Azure VMware 解决方案提供见证节点所需的生命周期管理。 由于整个解决方案由服务管理,客户只需确定为工作负载虚拟机设置的相应 SPBM 策略。 其余部分将由 Microsoft 进行管理。