你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
通常,本地环境中的资源完全可供使用。 当迁移到云时,需要对资源进行预配(即设置和配置)。 此要求是本地环境与云环境之间的主要区别。 资源业务流程协调程序按需预配计算节点和其他组件(例如存储和网络),以允许执行用户作业。 在直接迁移体系结构的上下文中,此组件将:
- 根据最终用户向作业计划程序提交的作业请求,为作业执行预配资源并安装软件。
- 验证所有资源是否可正常用于作业执行。
在处理直接迁移方案时,可以使用 Azure CycleCloud
在云环境中预配传统的 HPC 作业计划程序。 Azure CycleCloud 提供了几个功能来帮助更顺利地从本地环境转换到云环境。
定义资源需求
计算节点:
- 根据作业要求预配高性能计算节点。 配置节点类型、大小和缩放策略以优化性能和成本。
作业计划程序:
- 与 Slurm、PBS Pro 或 LSF 等 HPC 作业计划程序集成。 管理作业提交、监视作业状态并优化作业执行。
登录节点:
- 为用户提供访问权限来提交和管理作业。 配置登录节点,以处理用户身份验证和对 HPC 环境的 SSH 安全外壳访问。
存储:
- 为作业数据、结果和日志设置存储解决方案。 根据性能和容量要求使用 Azure Managed Lustre、Azure NetApp 文件或 Azure Blob 存储。
网络:
- 配置网络设置,以在计算节点、存储与其他资源之间实现安全的高性能通信。 使用 Azure 虚拟网络和网络安全组 (NSG) 来管理网络流量。
工具和服务
Azure CycleCloud:
- 使用 Azure CycleCloud 管理和优化云中的 HPC 环境。
- 通过 Azure CycleCloud 门户部署和配置 HPC 群集。
- 设置和管理计算节点、作业计划程序和存储资源,以实现高效的 HPC 工作负载。
动态缩放:
- 根据作业需求自动纵向扩展或缩减计算资源。
- 配置缩放策略来指定节点的最小和最大数量。
- 设置缩放触发器和冷却期。
基于模板的部署:
- 使用预定义的模板快速部署各种 HPC 群集配置。
- 在模板中定义计算节点类型、网络配置、存储选项和安装的软件。
- 自定义模板以满足特定要求,例如,包括专用软件或配置特定的网络设置。
支持多个调度器:
- 将 CycleCloud 与流行的 HPC 作业计划程序(例如 Slurm、PBS Pro 和 LSF)集成。
- 使用 CycleCloud 的内置计划程序支持功能,或根据现有的本地设置配置自定义集成。
-
统一作业管理:
- 从一个界面管理混合环境中的工作任务。
- 提交、监视和控制在本地和云中运行的作业。
- 使用作业数组、依赖关系和其他高级调度功能来优化作业执行和资源利用。
最佳做法
计划和测试:
- 仔细规划群集配置,包括节点类型、存储选项和网络设置。
- 在纵向扩展之前执行测试部署和工作负载,以确保正确设置所有内容。
自动执行配置:
- 利用 CycleCloud 模板和自动化脚本进行一致且可重复的群集部署。
- 自动更新群集配置,以快速应对不断变化的需求或新的软件版本。
监视和优化:
- 通过 CycleCloud 门户持续监视资源利用率和作业性能。
- 为了提高性能并降低成本,请根据监视数据优化群集配置。
安全访问:
- 使用 Azure Active Directory 和 SSH 密钥对登录节点实施强大的访问控制。
- 确保只有经过授权的用户才能访问计算和存储资源。
文档和培训:
- 维护群集配置、部署流程和操作规程的详细文档。
- 针对 HPC 管理员和用户提供培训,以确保有效且高效地使用 CycleCloud 管理的资源。
设置和部署的示例步骤
本部分概述了安装和配置 Azure CycleCloud 的步骤,特别是使用 CycleCloud Slurm Workspace。 它包括有关设置环境、配置基本设置和使用预定义模板部署 HPC 群集的说明。
安装和配置 Azure CycleCloud:
安装 CycleCloud Slurm Workspace:
- 导航到 Azure 市场并搜索“Azure CycleCloud Slurm 工作区”。
- 按照提示部署 CycleCloud Slurm Workspace,指定所需的参数,例如资源组、位置和虚拟网络。
- 在部署后,通过 CycleCloud 门户配置环境。
- 确保 Slurm 计划程序已设置并就绪可用于提交作业。
注意
有关 Azure CycleCloud Slurm Workspace 的详细信息,请访问此博客文章。
配置环境:
- 使用 CycleCloud CLI 或 Web 门户配置基本设置,例如云提供商凭据、默认区域和网络配置。
- CycleCloud 用于群集部署的存储帐户和其他必要资源已经使用前面的 CycleCloud Slurm Workspace 市场解决方案进行了部署。
创建并部署 HPC 群集:
定义群集模板:
- 创建一个群集模板,在其中指定计算节点类型、作业计划程序、软件包和其他配置详细信息。
注意
Slurm Workspace 部署设置已经创建了一个现有的 Slurm 模板。
部署群集:
使用 CycleCloud CLI 或 Web 门户根据定义的模板来部署群集。 监视部署过程,以确保所有资源都已正确预配并配置。
用来部署群集的示例命令:
cyclecloud create_cluster -f hpc-cluster-template.txt