你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
高性能计算 (HPC) 语境中的“直接迁云”主要指将本地环境和工作负载迁移到云计算平台的过程。 理想情况下,会尽量减少修改(例如,应用程序、作业计划程序及其配置会保持基本相同)。 由于本地和云平台中的资源不同,会自然而然地对存储和硬件进行调整。 通过提升并转移方法,组织可以更快地开始受益于云服务。
下图表示生产环境中的典型本地 HPC 群集,硬件制造商通常会提供这种群集。 此类本地环境包含一组计算节点,这些节点可能与虚拟机映像和容器配合工作,也可能不配合工作。 此类节点执行由作业计划程序(通常是 Slurm、PBS 或 LSF)管理的工作负载。 工作负载来自多个用户,这些用户具有关联的标识管理。 通常存在主目录、暂存磁盘和长期存储。 还可以采用某种形式的监视来检查作业的性能以及计算节点的运行状况。 用户可以通过命令行、浏览器或某种远程可视化技术来访问环境。 整个环境托管在专用网络中,因此用户可以使用某种机制通过 VPN 或门户来访问计算设施。
如本文档中所示,从概念上讲,遵循基础结构即服务模型的云环境并没有太大的不同。 某些技术需要进行某些更新,并且在从本地迁移到云的过程中需要执行一些步骤。
因此,本文档将会:
- 介绍迁移过程的选项;
- 提供有关产品的提示以及每个组件的最佳做法。
- 提供建议以避免在此过程中遇到陷阱。
在跳转到体系结构的说明之前,有必要了解此上下文中的不同角色、他们的需求和期望。
角色和用户体验
有不同的人需要访问 HPC 环境。 他们的活动及其与环境交互的方式有很大的差别。
最终用户(工程师/科学家/研究人员)
此角色表示想要运行试验(即提交作业)和分析结果的主题专家(例如生物学家、物理学家、工程师等)。 最终用户与系统管理员交互,以便在需要时微调计算环境。 他们可能在使用基于 CLI 的工具方面有一些经验,但其中一些人可能只能依赖于通过 VDI 使用 Web 门户或图形用户界面来提交其作业,并与生成的结果交互。
云 HPC 环境中的新责任:
- 最终用户不应根据 HPC 管理员和云管理员的工作承担任何新责任。 根据本地环境,最终用户可以访问更大的容量和多样化的计算资源,以提高工作效率。
HPC 管理员
此角色表示具备 HPC 专业知识,并负责部署初始计算基础结构以及根据业务和最终用户的需求调整该基础结构的人员。 此角色还负责验证系统的运行状况和执行故障排除。 HPC 管理员可以通过 CLI、SDK 和 Web 门户轻松访问体系结构及其组件。 当最终用户遇到计算环境相关的任何挑战时,他们也是首要联络点。
云 HPC 环境中的新责任:
- 通过云管理平台管理云资源和服务(例如虚拟机、存储、网络)。
- 通过新的资源业务流程工具(例如 CycleCloud)实现和管理群集与资源。
- 通过了解基础结构详细信息(即 VM 类型、存储和网络选项)来优化应用程序部署。
- 使用云特定的功能(例如自动缩放和现成 VM 实例)来优化资源利用率和成本。
云管理员
此角色与 HPC 管理员合作,以帮助部署和维护计算基础结构。 此角色不一定是 HPC 专家,而是对公司整体 IT 基础结构(包括网络配置/策略、用户访问权限和用户设备)有深入了解的云专家。 根据具体的情况,HPC 管理员和云管理员可能是同一个人。
云 HPC 环境中的新责任:
- 与 HPC 管理员协作,以确保 HPC 工作负载与云基础结构的无缝集成。
- 监视和管理云基础结构的性能、安全性与合规性。
- 帮助配置基于云的网络和存储解决方案,以支持 HPC 工作负载。
业务经理/所有者
此角色表示业务负责人,包括负责预算和项目工作以达成组织目标的人员。 对于此角色,需要熟悉体系结构的计帐组件才能了解每个项目的成本。 此角色与 HPC 管理员和最终用户合作,以了解包括存储、网络、计算资源在内的平台需求。 他们还将规划未来的工作负载。
云 HPC 环境中的新责任:
- 分析云服务提供商提供的详细成本报表和使用指标,以管理预算和预测开支。
- 根据云资源使用情况和成本优化机会做出战略性决策。
- 规划和审批云基础结构投资,以支持未来的 HPC 工作负载和业务目标。
直接迁移体系结构概述
云中的生产 HPC 环境由多个组件构成。 需要提供一些核心组件(例如作业计划程序、资源提供程序、用户访问环境的入口点、计算和存储设备,等等)才能建立环境。 随着环境投入生产,监视、可观测性、运行状况检查、安全性、标识管理、问责制、不同的存储选项等组件将开始发挥关键作用。
还可以部署一些扩展,例如登录节点、数据移动程序、使用的容器、许可证管理器,以及其他依赖于安装的组件。
可能需要为此生产级环境设置各种组件。 因此,环境部署者和管理者分别成了自动完成环境的初始部署以及持续为其升级的关键角色。 更高级的安装还可能具有环境模板(或规范),其中的软件版本和配置已经过进一步的优化和适当的测试。 将环境投入生产并且部署所有必要的组件后,随着时间的推移,可能需要进行调整(包括更改 VM 类型或存储选项/功能)以满足用户需求。
实例化直接迁移 HPC 云体系结构
此处,我们提供了有关每个体系结构组件的更多详细信息,包括官方 Azure 产品的指导、介绍一些最佳做法的技术博客、Git 存储库以及非产品解决方案的链接。
快速入门。 我们建议使用Azure CycleCloud Slurm 工作区作为快速入门解决方案,以通过基础构建块在云中创建 HPC 环境。