你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是云突发?

云突发是云计算中的一种配置,可使组织通过私有云与公有云的组合使用来应对 IT 需求高峰。 当私有云中的资源达到其最大容量时,溢出流量将定向到公有云,以确保服务不会中断。 这种设置提供了灵活性并节省了成本,因为您只需在有需求时为补充资源付费。

例如,某应用程序可以在私有云上运行,并仅在为满足峰值需求而有必要时才“突发”到公有云。 这种方法有助于避免与维护不经常使用的额外容量相关的成本。

可以在各种方案中使用云突发,例如,允许将本地工作负载发送到云中进行处理,称为混合HPC(High-Performance 计算)。 它允许用户优化其资源利用率和成本效率,同时访问云的可扩展性和灵活性。

概述

本文档提供了一个分步指南,介绍如何使用 Azure CycleCloud 安装和配置 Slurm 计划程序,以将计算资源突发到云中。 它介绍了如何通过将本地 Slurm 集群扩展到 Azure 来创建混合 HPC 环境,从而允许无缝访问可扩展且灵活的云计算资源。 本指南提供了一个通过将本地基础结构与基于云的解决方案集成来优化计算容量的实际示例。

在 Azure 上使用 CycleCloud 设置 Slurm 云突发的要求

Azure 订阅帐户

必须获取 Azure 订阅,或被分配为订阅的“所有者”角色。

网络基础结构

如果您打算完全在 Azure 中创建 Slurm 集群,则必须在单个 Azure 虚拟网络 (VNET) 中部署头节点和 CycleCloud 计算节点。

Slurm 群集

若要创建混合 HPC 群集,其中包含本地企业网络上的头节点和 Azure 中的计算节点,请设置 站点到站点 VPN 或 ExpressRoute 连接。 这会将你的网络链接到 Azure VNET。 头节点必须能够联机连接到 Azure 服务。 您可能需要与网络管理员合作进行此设置。

网络端口和安全性

必须配置以下 NSG 规则,才能在主节点、CycleCloud 服务器和计算节点之间成功通信。

服务 端口 协议 方向 目的 要求
SSH (安全外壳) 22 TCP 入站/出站 通过命令行安全访问 Slurm 主节点 在本地防火墙和 Azure NSG 上打开
斯卢姆控制 (slurmctld, slurmd) 6817、6818 TCP 入站/出站 在 Slurm 主节点与计算节点之间进行通信 在本地防火墙和 Azure NSG 中打开
Munge 身份验证服务 4065 TCP 入站/出站 Slurm 主节点与计算节点之间的身份验证 在本地网络和 Azure NSG 上打开
CycleCloud 服务 443 TCP 出站 Slurm 主节点与 Azure CycleCloud 之间的通信 允许从 Slurm 主节点到 Azure CycleCloud 服务的出站连接
NFS 端口 2049 TCP 入站/出站 主节点与 Azure CycleCloud 之间的共享文件系统访问 在本地网络和 Azure NSG 上打开
LDAP 端口(可选) 389 TCP 入站/出站 用户管理的集中式身份验证机制 在本地网络和 Azure NSG 上打开

请参阅 Slurm 网络配置指南

软件要求

  • 作系统版本:AlmaLinux 版本 8.x 或 Ubuntu 22.04
  • CycleCloud 版本:8.x 或更高版本
  • CycleCloud-Slurm 项目版本:3.0.x

NFS 文件服务器

外部 Slurm 计划程序节点与 CycleCloud 群集之间的共享文件系统。 可以使用 Azure NetApp 文件、Azure 文件存储、NFS 或其他方法在两端装载相同的文件系统。 在此示例中,我们使用 Scheduler VM 作为 NFS 服务器。

集中式用户管理系统(LDAP 或 AD)

在 HPC 环境中,在整个群集中维护一致的用户 ID(UID)和组 ID 对于无缝用户访问和资源管理至关重要。 集中式用户管理系统(如 LDAP 或 Active Directory(AD)可确保 UID 和 GID 在所有计算节点和存储系统之间同步。

重要

有关如何设置和说明的详细信息,请参阅有关 在 Azure 上使用 CycleCloud 进行 Slurm Cloud 突发的博客文章。

后续步骤