你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

What is Azure CycleCloud?(什么是 Azure CycleCloud?)

Azure CycleCloud 是一套企业级友好的工具,用于协调和管理 Azure 上的高性能计算 (HPC) 环境。 使用 CycleCloud,用户可以为 HPC 系统预配基础结构、部署熟悉的 HPC 计划程序,并自动缩放基础结构以在任何规模下高效运行作业。 通过 CycleCloud,用户可以创建不同类型的文件系统,并将其装载到计算群集节点以支持 HPC 工作负载。

Azure CycleCloud 面向想要部署 HPC 环境的 HPC 管理员和用户,其中考虑到了特定的计划程序,即开箱即用地支持常用的计划程序,例如 Slurm、PBSPro、LSF、网格引擎和 HT-Condor。 CycleCloud 是Azure Batch的姐妹产品,在 Azure 上提供计划程序即服务。

有关 CycleCloud 与其他 Azure HPC 解决方案的比较情况的信息,请参阅 Azure 上的高性能计算 (HPC)

为何应使用 Azure CycleCloud?

运行 HPC 环境一段时间的组织通常会围绕特定的计划程序积累多年的专业知识和内部工具,在 Azure 上重新构建或部署这些环境可能令人望而生畏。 CycleCloud 抽象化了基本的 Azure 构建基块,例如 VM、规模集、网络接口和磁盘。 这使得 HPC 管理员能够专注于熟悉的:由节点和所选的可配置计划程序组成的 HPC 群集。

CycleCloud 在受支持的计划程序之上部署自动缩放插件,因此用户无需自行实现复杂的自动缩放函数和例程,而只需与熟悉的计划程序级配置进行交互。

CycleCloud 采用丰富的声明性模板化格式,提供强大的工具,用于在 Azure 上构建完整的 HPC 环境。 用户可以通过单个管理平面部署环境,包括 NFS 服务器、并行文件系统、登录主机、许可证服务器和目录服务(基本上是 HPC 系统所需的所有组件)。

CycleCloud 与 Azure 服务(例如 Azure MonitorAzure 成本管理工具)集成。

概述简介

CycleCloud 功能

计划程序不可知
使用标准 HPC 计划程序(如 Slurm、PBS Pro、LSF、Grid Engine 和 HTCondor),或扩展 CycleCloud 自动缩放插件以使用你自己的计划程序
计划程序示例
管理计算资源
管理虚拟机和规模集,以提供一组灵活的计算资源,以满足动态工作负载要求
计算资源示例
自动缩放资源
根据作业负载、可用性和时间要求自动调整群集大小和组件
自动缩放示例
监视和分析
使用可视化工具收集和分析性能数据
监视示例
模板群集
使用 CycleCloud 模板与社区共享群集拓扑
模板示例
自定义和扩展功能
使用综合 RESTful API 自定义和扩展功能,部署自己的计划程序,并支持现有的工作负载管理器
REST 示例
集成到现有工作流中
使用内置 CLI 集成到现有工作流和工具中
CLI 示例
计划程序不可知
使用标准 HPC 计划程序(如 Slurm、PBS Pro、LSF、Grid Engine 和 HTCondor),或扩展 CycleCloud 自动缩放插件以使用你自己的计划程序
计划程序示例
管理计算资源
管理虚拟机和规模集,以提供一组灵活的计算资源,以满足动态工作负载要求
计算资源示例
自动缩放资源
根据作业负载、可用性和时间要求自动调整群集大小和组件
自动缩放示例
监视和分析
使用可视化工具收集和分析性能数据
监视示例
模板群集
使用 CycleCloud 模板与社区共享群集拓扑
模板示例
自定义和扩展功能
使用综合 RESTful API 自定义和扩展功能,部署自己的计划程序,并支持现有的工作负载管理器
REST 示例
集成到现有工作流中
使用内置 CLI 集成到现有工作流和工具中
CLI 示例

如何使用 Azure CycleCloud?

Azure CycleCloud 是一个可安装的 Web 应用程序,可在本地或 Azure VM 中运行。 安装后,CycleCloud 可以配置为使用准备好的 Azure 订阅中的计算和数据资源。 CycleCloud 为计划程序提供了许多官方群集模板, (PBSPro、LSF、网格引擎、Slurm、HTCondor) ,以及文件系统 (NFS、BeeGFS) 。 CycleCloud 社区提供的群集模板也可用。 可以未经修改地使用这些群集模板,也可以根据特定需求自定义它们。

创建群集后,默认情况下会自动将其配置为自动缩放,以处理提交到计划程序的计算作业。 CycleCloud 管理功能控制组织中其他用户对 CycleCloud 群集的访问。

使用模板和配置脚本进行工具可以快速构建复杂的 HPC 环境,并为组织中的单独团队复制这些环境。

CycleCloud 不是什么?

CycleCloud 中没有作业计划功能。 换句话说,CycleCloud 不是计划程序,而是一个使用户能够将自己的计划程序部署到 Azure 的平台。 CycleCloud 内置了对许多常用计划程序的支持, (PBSPro、Slurm、IBM LSF、Grid Engine 和 HT Condor) ,但 CycleCloud 用户经常在提供的自动缩放 API 的基础上实现自己的计划程序。

CycleCloud 不指定群集拓扑;安装附带的模板旨在使 HPC 系统在 Azure 中快速启动和运行,但 HPC 操作员可以自定义这些模板来定制基础结构以满足其要求。 Azure HPC 社区提供了针对不同类型的工作负载和行业进行优化的有意见的模板。

CycleCloud 部署环境的外观

CycleCloud 部署

可以在 Azure 基础结构上部署整个 CycleCloud HPC 系统。 CycleCloud 本身作为应用程序服务器安装在 Azure 中的 VM 上,该 VM 需要对 Azure 资源提供程序 API 进行出站访问。 然后,CycleCloud 启动和管理构成 HPC 系统的 VM-这些系统通常由 HPC 计划程序头节点 () 和计算节点组成,但也可能包括基于 VM 的网络附加存储,例如 NFS 服务器或 BeeGFS 群集、登录节点、堡垒主机以及支持 HPC 基础结构所需的其他组件。 HPC 系统的构成完全通过 CycleCloud 模板定义。 此外,CycleCloud HPC 环境可以利用其他 PaaS 服务,例如 Azure NetApp 文件、Azure HPC 缓存 和 Azure Active Directory 域 服务。

后续步骤