你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HPC 在能源方面的网络拓扑和连接

本文中的指南可帮助你了解与 Microsoft Azure 的网络和连接以及高性能计算(HPC)部署相关的设计注意事项和最佳做法。 以下建议基于 Azure 登陆区域文章 中为网络拓扑和连接定义的注意事项和建议。

IP 寻址、虚拟网络和子网

在 Azure 中计划 IP 寻址至关重要,以确保:

  • IP 地址空间在本地位置和 Azure 区域中不重叠。
  • 将来的虚拟网络(VNet)与现有或计划的 VNet 对等互连是可能的。
  • VNet 包含正确的地址空间。
  • 提前对子网配置进行适当规划。
  • 对于将来的扩展或其他服务,考虑足够的过多寻址。

设计注意事项

请考虑创建单独的子网,以跨环境的功能组件分配 IP 地址。 例如,专用 HPC VNet 可以包含以下子网:

  • 计算
  • 存储
  • 基础结构
  • 可视化效果
  • 登录
  • Azure NetApp 文件
  • Azure HPC 缓存

Azure NetApp 文档、Azure HPC 缓存 和将来的存储产品/服务等服务需要专用委派子网才能正常运行。 如果考虑其中任何服务,请确保规划适当的寻址空间。

本地和 Azure 资源的 DNS 和名称解析

域名系统(DNS)是整个 Azure 登陆区域体系结构中的关键设计主题。 某些组织可能想要使用他们在 DNS 中的现有投资,而其他组织可能认为云采用是实现其内部 DNS 基础结构现代化和使用本机 Azure 功能的机会。

DNS 设计注意事项:在迁移期间虚拟机的 DNS 或虚拟名称不更改时,请遵循这些建议。

  • 后台 DNS 和虚拟名称连接 HPC 环境中的许多系统接口,客户有时只知道开发人员随时间推移定义的接口。 迁移后虚拟或 DNS 名称发生更改时,各种系统之间会出现连接挑战,因此应保留 DNS 别名以防止这些类型的困难。
  • 使用不同的 DNS 区域来区分环境,例如沙盒、开发、预生产以及生产。 例外情况是,使用自己的 VNet 进行 HPC 部署,这可能不需要专用 DNS 区域。
  • 使用 HPC 缓存时,必须使用 DNS 支持,以便他们可以访问存储和其他资源。

高性能网络服务

  • 加速网络:许多 HPC 工作负荷(例如地震处理、处理存储在共享文件系统(如 Azure Blob、Azure NetApp 文档、Lustre ClusterStor)和其他通过网络访问的自定义存储解决方案中的数据。 高性能网络对于减少数据传输时间至关重要。

    加速网络 提供 VM 与 Azure 服务之间的高吞吐量、低延迟连接。 其他优势包括减少抖动和最小 CPU 利用率。

  • InfiniBand:依赖于消息传递接口(MPI)库的并行 HPC 应用程序可能需要在多个 VM 之间传输大量数据。 支持 RDMA 的 H 系列N 系列 VM 上提供的 InfiniBand 互连提供低延迟、高带宽连接,以最大限度地提高 HPC 和深度学习应用程序的性能和可伸缩性。

    Diagram of InfiniBand connection between VMs.

    MPI 作业的一些示例包括分子动力学、计算流体动力学、石油和天然气储层模拟以及新兴的分布式机器学习工作负载。

    InfiniBand 连接只能在同一 放置组中分配的 VM 之间进行。

  • Azure ExpressRoute:如果突发应用程序(例如用于水库模拟和建模的混合设置),其中共享本地数据集,Azure 计算将成为扩展,ExpressRoute 通过专用连接将本地环境连接到 Microsoft 云。 ExpressRoute 提供企业级复原能力和可用性,以及全球 ExpressRoute 合作伙伴生态系统的优势。 要了解如何使用 ExpressRoute 将网络连接到 Microsoft,请参阅 ExpressRoute 连接模型

    ExpressRoute 连接不会通过公共 Internet,它们比典型的 Internet 连接提供更高的可靠性、更快的速度和更低的延迟。 对于点到站点 VPN 和站点到站点 VPN,可以使用这些 VPN 选项和 Azure ExpressRoute 的任意组合将本地设备或网络连接到虚拟网络。

定义 Azure 网络拓扑

企业规模登陆区域支持两个网络拓扑:一个基于 Azure 虚拟 WAN,另一个基于中心辐射体系结构的传统网络拓扑。 本部分针对这两种部署模型建议 HPC 配置和做法。

  • Azure 虚拟 WAN:如果组织计划:

    • 跨多个 Azure 区域部署资源,并将全局位置连接到 Azure 和本地。
    • 将软件定义的 WAN 部署与 Azure 完全集成。
    • 跨连接到一个虚拟 WAN 中心的所有 VNet 部署多达 2,000 个 VM 工作负荷。

    组织使用 Azure 虚拟 WAN来满足大规模互连要求。 Microsoft 管理此服务,这有助于降低整体网络复杂性并实现组织网络的现代化。

  • 中心辐射型体系结构:如果你的组织: 使用基于 中心辐射型体系结构 的传统 Azure 网络拓扑:

    • 计划仅在选择 Azure 区域中部署资源。
    • 不需要全局互连的网络。
    • 每个区域的远程或分支位置很少,需要少于 30 个 IP 安全性(IPsec)隧道。
    • 需要完全控制和粒度才能手动配置 Azure 网络。

    本地和全局 VNet 对等互连提供连接,是确保跨多个 Azure 区域进行 HPC 部署的登陆区域之间的连接的首选方法。

入站和出站 Internet 连接

由于 Azure 本机网络安全服务(如 Azure 防火墙、应用程序网关上的 Azure Web 应用程序防火墙和 Azure Front Door)是完全托管的服务,因此不会产生与基础结构部署(规模越大越复杂)相关的运营和管理成本。

HPC 实现的设计建议:

  • 对于全球占用空间的客户,Azure Front Door 使用 Azure Web 应用程序防火墙 策略跨 Azure 区域交付和保护全局 HTTP/S 应用程序,从而帮助 HPC 部署。
  • 使用 Azure Front Door 和应用程序网关保护 HTTP/S 应用程序时,请利用此服务中的 Web 应用程序防火墙策略。 锁定应用程序网关以仅接收来自 Azure Front Door 的流量。

网络加密要求

HPC 实现的设计注意事项:

  • 使用 Azure ExpressRoute 配置专用对等互连时,流量当前不会加密。
  • 通过 ExpressRoute 进行 HPC 部署的流量不需要加密。 默认情况下,IPsec 隧道会加密 Internet 流量,加密或解密可能会对流量的性能产生负面影响。

在本地和 Azure 之间以及跨 Azure 区域加密网络的关键建议:

  • 确定是否应加密 HPC 流量。 浏览网络拓扑和连接,了解企业级登陆区域中的网络加密选项。
  • 在 Azure 中规划 IP 寻址,确保:
    • IP 地址空间在本地位置和 Azure 区域中不重叠。
    • VNet 包含正确的地址空间。
    • 提前对子网配置进行适当规划。

吞吐量延迟带宽网络要求

仅限云中的 HPC 和混合云部署模型都具有自己的延迟和吞吐量要求,具体取决于在本地提交和执行能源工作负载的方式与云环境相比。 用户可以从本地或云中的许多部署模式提交 HPC 作业。

  • 单个作业
    • 使用远程可视化桌面时的本地到 Azure 连接注意事项
  • 突发作业
    • 在云中提交作业的计划程序设置网络注意事项
    • Azure Batch 网络注意事项
  • 本地和云中的并行工作流
  • 混合
    • HPC 缓存
  • 云原生
    • Azure Kubernetes 服务容器
    • 函数

MPI 环境专用,因为它们具有独特的要求,需要节点之间的低延迟通信。 节点通过高速互连进行连接,无法与其他工作负荷共享。 MPI 应用程序在虚拟化环境中使用直通模式使用整个高性能互连。 MPI 节点的存储通常是一个并行文件系统,如 Lustre,也可以通过高速互连进行访问。

后续步骤

以下文章提供了有关能源 HPC 环境云采用旅程中每个步骤的指导。