你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

资源编排

通常,本地环境中的资源完全可供使用。 当迁移到云时,需要对资源进行预配(即设置和配置)。 此要求是本地环境与云环境之间的主要区别。 资源业务流程协调程序按需预配计算节点和其他组件(例如存储和网络),以允许执行用户作业。 在直接迁移体系结构的上下文中,此组件将:

  • 根据最终用户向作业计划程序提交的作业请求,为作业执行预配资源并安装软件。
  • 验证所有资源是否可正常用于作业执行。

在处理直接迁移方案时,可以使用 Azure CycleCloud 在云环境中预配传统的 HPC 作业计划程序。 Azure CycleCloud 提供了几个功能来帮助更顺利地从本地环境转换到云环境。

定义资源需求

  • 计算节点:

    • 根据作业要求预配高性能计算节点。 配置节点类型、大小和缩放策略以优化性能和成本。
  • 作业计划程序

    • 与 Slurm、PBS Pro 或 LSF 等 HPC 作业计划程序集成。 管理作业提交、监视作业状态并优化作业执行。
  • 登录节点:

    • 为用户提供访问权限来提交和管理作业。 配置登录节点,以处理用户身份验证和对 HPC 环境的 SSH 安全外壳访问。
  • 存储

    • 为作业数据、结果和日志设置存储解决方案。 根据性能和容量要求使用 Azure Managed Lustre、Azure NetApp 文件或 Azure Blob 存储。
  • 网络:

    • 配置网络设置,以在计算节点、存储与其他资源之间实现安全的高性能通信。 使用 Azure 虚拟网络和网络安全组 (NSG) 来管理网络流量。

工具和服务

  • Azure CycleCloud:

    • 使用 Azure CycleCloud 管理和优化云中的 HPC 环境。
    • 通过 Azure CycleCloud 门户部署和配置 HPC 群集。
    • 设置和管理计算节点、作业计划程序和存储资源,以实现高效的 HPC 工作负载。
  • 动态缩放

    • 根据作业需求自动纵向扩展或缩减计算资源。
    • 配置缩放策略来指定节点的最小和最大数量。
    • 设置缩放触发器和冷却期。
  • 基于模板的部署:

    • 使用预定义的模板快速部署各种 HPC 群集配置。
    • 在模板中定义计算节点类型、网络配置、存储选项和安装的软件。
    • 自定义模板以满足特定要求,例如,包括专用软件或配置特定的网络设置。
  • 支持多个调度器:

    • 将 CycleCloud 与流行的 HPC 作业计划程序(例如 Slurm、PBS Pro 和 LSF)集成。
    • 使用 CycleCloud 的内置计划程序支持功能,或根据现有的本地设置配置自定义集成。
  • 统一作业管理:
    • 从一个界面管理混合环境中的工作任务。
    • 提交、监视和控制在本地和云中运行的作业。
    • 使用作业数组、依赖关系和其他高级调度功能来优化作业执行和资源利用。

最佳做法

  • 计划和测试:

    • 仔细规划群集配置,包括节点类型、存储选项和网络设置。
    • 在纵向扩展之前执行测试部署和工作负载,以确保正确设置所有内容。
  • 自动执行配置:

    • 利用 CycleCloud 模板和自动化脚本进行一致且可重复的群集部署。
    • 自动更新群集配置,以快速应对不断变化的需求或新的软件版本。
  • 监视和优化:

    • 通过 CycleCloud 门户持续监视资源利用率和作业性能。
    • 为了提高性能并降低成本,请根据监视数据优化群集配置。
  • 安全访问:

    • 使用 Azure Active Directory 和 SSH 密钥对登录节点实施强大的访问控制。
    • 确保只有经过授权的用户才能访问计算和存储资源。
  • 文档和培训:

    • 维护群集配置、部署流程和操作规程的详细文档。
    • 针对 HPC 管理员和用户提供培训,以确保有效且高效地使用 CycleCloud 管理的资源。

设置和部署的示例步骤

本部分概述了安装和配置 Azure CycleCloud 的步骤,特别是使用 CycleCloud Slurm Workspace。 它包括有关设置环境、配置基本设置和使用预定义模板部署 HPC 群集的说明。

  1. 安装和配置 Azure CycleCloud:

    • 安装 CycleCloud Slurm Workspace:

      • 导航到 Azure 市场并搜索“Azure CycleCloud Slurm 工作区”。
      • 按照提示部署 CycleCloud Slurm Workspace,指定所需的参数,例如资源组、位置和虚拟网络。
      • 在部署后,通过 CycleCloud 门户配置环境。
      • 确保 Slurm 计划程序已设置并就绪可用于提交作业。

      注意

      有关 Azure CycleCloud Slurm Workspace 的详细信息,请访问此博客文章

    • 配置环境:

      • 使用 CycleCloud CLI 或 Web 门户配置基本设置,例如云提供商凭据、默认区域和网络配置。
      • CycleCloud 用于群集部署的存储帐户和其他必要资源已经使用前面的 CycleCloud Slurm Workspace 市场解决方案进行了部署。
  2. 创建并部署 HPC 群集:

    • 定义群集模板:

      • 创建一个群集模板,在其中指定计算节点类型、作业计划程序、软件包和其他配置详细信息。

      注意

      Slurm Workspace 部署设置已经创建了一个现有的 Slurm 模板。

    • 部署群集:

      • 使用 CycleCloud CLI 或 Web 门户根据定义的模板来部署群集。 监视部署过程,以确保所有资源都已正确预配并配置。

      • 用来部署群集的示例命令:

        cyclecloud create_cluster -f hpc-cluster-template.txt
        

资源