你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
部署步骤 2:基本服务 - 概述
用户在本地环境中交互的关键组件之一是作业计划程序(例如,Slurm、PBS 和 LSF)。 在直接迁移过程中,用户应保留与这些计划程序相同的交互级别。 但是,区别在于资源不再是静态的;它们是按需预配的。
本部分介绍与作业计划程序相关的核心组件,包括用于预配和设置资源的资源协调程序、用户身份验证的标识管理、监视(包括节点运行状况检查)和会计,以便更好地了解资源的状态和使用情况。 每个组件都在确保 HPC 环境的性能、可伸缩性和安全性方面发挥了重要作用。 通过使用熟悉的本地技术(如 Active Directory 和已建立的应用程序运行时),组织可以在保持连续性的同时更顺利地过渡到云。 全面概述了工具、最佳做法和快速入门设置,目标是随着云环境的发展逐步自动执行这些服务。
用户标识
使用 Active Directory 服务和 LDAP 等技术,可以在云环境中重复使用本地使用的用户帐户和属性。 建议尽可能多地应用现有的本地用户标识技术。
监视
监视是一个广阔的领域,因为不仅需要监视作业,而且需要监视整个基础结构。 此服务的主要建议为不仅要考虑来自本地环境的现有指标,还要考虑将新的指标迁移到云(这些指标与成本相关),以及基础结构的状态。 在云中,与在本地环境不同,会根据使用情况需求预配和取消预配资源。 例如,为成本相关的阈值创建警报可能很有趣,该阈值可以是每个用户、部门或项目。
节点健康状况检查
节点运行状况与监视相关,会检查与查看预配的群集节点是否通过了所有与运行状况相关的测试。 建议对 HPC 实例使用 Azure 产品/服务的节点运行状况检查。 但是,如果需要,可能需要添加新测试。
自动缩放规则
与在本地环境相比,自动缩放是一个关键区别。 自动缩放规则会确定节点何时加入或离开群集。 始终启用所有预期的节点可能会提高启动作业作为节点的效率。 然而,当它们闲置时,可能会造成相当大的资金浪费。 建议在不使用时使节点保持关闭状态。 如果业务需求更快启动时间,则某些节点上的缓冲区可能很有趣,但必须正确定义此选项来评估作业和成本快速启动时间之间的权衡。
应用程序和运行时
在这里,我们建议尽可能多地使用现有的本地技术。 可以重复使用 spack、easybuild、EESSI 甚至已编译应用程序的存储库等技术。 但是,值得注意的是,云中的硬件可能不同于本地环境中可用的硬件。 因此,需要重新编译和调整脚本,此操作也可以带来性能优势。
有关详细信息,请查看以下组件的说明:
此处介绍了每个组件。 每部分包括以下内容:
- 组件本质的概述说明
- 对组件的要求是什么(即我们需要从组件中获得什么)
- 可用的工具和服务
- HPC 直接迁移背景下适用于组件的最佳做法
- 快速入门设置示例
快速入门的目标是让用户了解如何开始使用该组件。 随着 HPC 云部署的成熟,预计可通过使用基础结构即软件工具(例如 Terraform 或 Bicep)来自动使用该组件。