练习 - 从内置模板创建 HPC 群集
你可以直接从 Azure CycleCloud Web 应用程序的图形界面创建新群集。 CycleCloud 提供许多特定于计划程序的预定义模板,可简化相应计划程序的群集预配过程。
你已经预配了托管 CycleCloud Web 应用程序的 Azure 虚拟机,现在可以评估是否可以使用它来将基于 Slurm 的 HPC 群集部署到 Azure。 首先需要确保 Azure 订阅满足群集的资源要求。 还要考虑管理团队是否希望将群集的成本保持在项目的预算内。 因此,你计划设置 CycleCloud 预算警报,并在完成评估后取消预配实验室环境。
在此练习中,将逐步使用 Azure CycleCloud 将基于 Slurm 的 HPC 群集部署到 Azure。 该练习由以下任务组成:
- 任务 1:准备部署 HPC 群集
- 任务 2:使用 Azure CycleCloud 创建 HPC 群集
- 任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集
- 任务 4:清理实验室环境
任务 1:准备部署 HPC 群集
在部署 HPC 群集之前,你应首先确保有足够的网络和计算资源来满足其使用情况。
注意
若要完成本练习,无需满足配额要求来达到计算节点的预配,因为不会在创建的群集上运行任何作业。 但是,如果是这种情况,你可能会注意到本练习中的屏幕截图与 CycleCloud Web 界面不匹配,因为如果没有足够数量的可用核心,CycleCloud 不会预先创建占位符计算节点。
在计算机上,切换到显示 Azure 门户的 Web 浏览器窗口。
在 Azure 门户中,使用门户界面顶部的搜索框来搜索“cyclecloud-rg”资源组。
在 Azure 门户的“cyclecloud-rg”页面上的资源列表中,选择“cyclecloud-rg-vnet”条目,它表示在本模块的上一练习中预配的虚拟网络。
在“cyclecloud-rg-vnet”页面的左侧垂直菜单中,选择“子网”。
在“cyclecloud-rg-vnet | 子网”窗格上,选择“+ 子网”。
在“添加子网”窗格的“名称”文本框中,输入“contoso-slurm-lab-cluster-subnet”,接受默认子网范围,然后选择“保存”。
注意
建议将托管 CycleCloud Azure VM 的子网与托管群集计算资源的子网分开。 对于较大的群集,应分配足够大小的 IP 地址范围。
在 Azure 门户中,使用搜索框来搜索“订阅”。
在“订阅”页面上,选择要在此模块的练习中使用的 Azure 订阅。
在显示 Azure 订阅的页面的左侧垂直菜单中,在“设置”部分选择“使用情况 + 配额”。
在“使用情况 + 配额”窗格上,配置以下筛选设置(将其他设置保留为默认值):
设置 Value 选择服务 选择“标准 Dv3 系列 vCPU”、“标准 FSv2 系列 vCPU”和“区域 vCPU 总数”条目。 选择提供程序 选择“Microsoft.Compute”条目。 选择一个位置 在此练习中,选择要在其中部署群集的 Azure 区域的名称。 查看输出并确定每个组中可用 vCPU 的数量。
任务 2:使用 Azure CycleCloud 创建 HPC 群集
你已经在 Azure VM 中安装了 CycleCloud Web 应用程序,你的 Azure 订阅中有足够的 vCPU 核心,并且拥有一个能够满足群集节点自动缩放的指定网络子网, 现在可以继续部署基于 Slurm 的群集。
在计算机上,在显示 Azure CycleCloud Web 应用程序“订阅”页面的 Web 浏览器窗口中,选择左上角的“返回到群集”链接。
在“创建新群集”页面上,查看可用选项,在“计划程序”部分,选择“Slurm”。
在“新建 Slurm 群集”页面的“关于”选项卡上,在“群集名称”文本框中输入“contoso-slurm-lab-cluster”。
在“新建 Slurm 群集”页面的“所需设置”选项卡上,在“群集名称”文本框中配置以下设置(将其他设置保留为默认值):
设置 值 区域 在本练习中,选择要在其中部署群集的 Azure 区域的名称。 计划程序 VM 类型 选择“选择”,然后在“选择计算机类型”弹出窗口的“SKU 搜索”文本框中输入“D2ds_v5”。 在结果列表中,选中“D2ds_v5”条目旁边的复选框,然后选择“应用”。 设置 值 最大 HPC 核心数 输入 100 最大 HTC 核心数 输入 100 每个规模集的最大 VM 数 输入 40 子网 ID 选择“cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet” 注意
“每个规模集的最大 VM 数”设置用于限制可在群集上运行的消息传递接口作业的最大大小,因为规模集当前是 InfiniBand 构造边界。
在“新建 Slurm 群集”页面的“网络连接存储”选项卡上,验证“NFS 类型”是否设置为“内置”。 接受“大小(GB)”默认值设置为“100”,然后选择“下一步”。
在“新建 Slurm 群集”页面的“高级设置”选项卡上,查看可用选项且无需做出任何更改,然后选择“下一步”。
在“新建 Slurm 群集”页面的“Cloud-init”选项卡上,查看可用选项且无需做出任何更改,然后选择“保存”。
任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集
若要准备运行群集,需要设置警报,以便在群集使用成本达到分配给 Azure 资源成本的预算时提醒你。 你还通过使用 CycleCloud Web 应用程序的图形界面启动群集来验证部署。
在计算机上,在显示 Azure CycleCloud Web 应用程序图形界面的 Web 浏览器中,查看新部署的群集的属性。
在“contoso-slurm-lab-cluster”页面上,选择“创建新警报”链接。
在“contoso-slurm-lab-cluster 的群集使用情况警报”弹出窗口中,指定以下设置,然后选择“保存”:
设置 Value 预算 100.00 美元 计费方式 Month 发送通知 Enabled 收件人 cc-admin@contoso.com 返回到“contoso-slurm-lab-cluster”页面,选择“开始”链接,当系统提示确认时,选择“确定”。
监视启动过程。
注意
此过程包括预配充当群集头节点角色的 Azure VM,以及安装和配置 Slurm 计划程序。 这可能需要大约五分钟。
任务 4:清理实验室环境
你已完成使用 Azure CycleCloud 应用程序测试群集部署这一过程。 为了避免与使用 Azure 资源相关的不必要成本,请终止群集并移除在本课程的所有练习中预配的全部资源。
在计算机上,在显示 Azure CycleCloud Web 应用程序图形界面的 Web 浏览器中,在“contoso-slurm-lab-cluster”页面上,选择“终止”链接,当系统提示确认时,选择“确定”。
监视终止过程。
注意
此过程包含取消预配充当群集头节点角色的 Azure VM。 这可能需要大约五分钟。
注意
你应删除在本练习中部署的资源,如此任务所述。 如果不删除资源,你的订阅可能会产生额外的费用。
注意
若要删除在此实验室中预配的所有其他资源,请删除“cyclecloud-rg”资源组。
在计算机上,切换到显示 Azure 门户的浏览器窗口。
在 Azure 门户中,导航到“cyclecloud-rg”边栏选项卡。 选择工具栏中的“删除资源组”条目,然后在“键入资源组名称”文本框中输入“cyclecloud-rg”,然后选择“删除”。
重复上一步,删除名称以“contoso-slurm-lab-cluster-”开头的资源组(包含群集使用的磁盘资源)。
恭喜! 你已成功完成本模块的第二个练习。 你已确保满足新群集部署所需的计算和网络资源的可用性。 然后,你使用 Azure CycleCloud 部署了群集,配置了其预算警报,并启动它来验证其功能。 最后,你终止了群集并删除了在此模块中预配的所有资源,以避免产生任何不必要的费用。