Поделиться через


Что такое рабочая область Azure CycleCloud для Slurm?

Slurm является одним из самых популярных и широко используемых диспетчеров рабочих нагрузок с открытым исходным кодом для ИИ/HPC и облачных вычислений. Slurm позволяет пользователям запускать крупномасштабные параллельные и распределенные приложения в наборе вычислительных узлов и предоставляет такие функции, как планирование заданий, управление ресурсами, отказоустойчивость и управление питанием. Slurm используется многими из лучших суперкомпьютеров мира, исследовательских институтов, университетов и предприятий.

Однако настройка кластеров Slurm и управление ими в облаке может быть сложной задачей и временем, особенно для пользователей, которые не знакомы с облачной средой или конфигурацией Slurm. Пользователи должны иметь дело с такими задачами, как подготовка и масштабирование вычислительных узлов, установка и обновление программного обеспечения Slurm, настройка сети и хранилища, мониторинг работоспособности кластера и производительность, а также устранение неполадок. Эти задачи могут отвлекать пользователей от основных исследований или бизнес-целей, а также снизить производительность и эффективность рабочих нагрузок ИИ/HPC.

Рабочая область Azure CycleCloud для Slurm — это шаблон решения Azure Marketplace, позволяющий пользователям легко создавать, настраивать и развертывать предварительно определенные кластеры Slurm с помощью CycleCloud в Azure, не требуя предварительного знания о Azure или Slurm. Кластеры Slurm будут предварительно настроены с помощью PMix версии 4, Pyxis и enroot для поддержки контейнерных заданий AI/HPC Slurm. Пользователи могут получить доступ к подготовленному узлу входа с помощью SSH или Visual Studio Code для выполнения распространенных задач, таких как отправка заданий Slurm и управление ими.

Хотя Azure CycleCloud уже позволяет выполнять некоторые из этих действий, он не развертывает инфраструктуру ИИ/HPC для вас. Пользователи должны иметь дело с такими задачами, как установка и настройка CycleCloud, настройка сети и хранилища, создание и настройка кластера Slurm. Рабочая область Azure CycleCloud для Slurm выполняет эти задачи в шаблоне решения Marketplace, который можно развернуть непосредственно на портале Azure или с помощью Azure CLI. Вы будете готовы в минутах, а не в днях или неделях.

Каковы преимущества рабочей области Azure CycleCloud для Slurm?

Azure CycleCloud — это отличное решение, если вы хотите создать среду ИИ/HPC в Azure, чтобы поднять и переместить некоторые локальные рабочие нагрузки ИИ/HPC или создать новую. Однако создание полной комплексной среды ИИ/HPC не является простой задачей, и вам придется решить, как вам потребуется разработать сеть, какой компонент хранилища будет использоваться в качестве общей файловой системы, какой тип виртуальной машины для выполнения рабочей нагрузки, и многие небольшие вещи, которые могут сделать проект сложным для доставки.

Рабочая область Azure CycleCloud для Slurm предлагает несколько преимуществ для пользователей, которые хотят запускать рабочие нагрузки Slurm в Azure, например:

  • Простое и быстрое создание кластера. Пользователи могут создавать кластеры Slurm в Azure в минутах, выполнив несколько простых действий в графическом интерфейсе. Это должно быть по сравнению с днями или неделями работы в прошлом без рабочей области Azure CycleCloud для Slurm. Пользователи могут выбирать различные размеры и типы виртуальных машин Azure, а также настраивать параметры кластера, такие как количество узлов, конфигурация сети, параметры хранения из Azure NetApp Files в управляемую файловую систему Lustre Azure и параметры Slurm.

  • гибкое и динамическое управление кластерами: кластеры Slurm будут масштабироваться вверх или вниз с помощью Azure CycleCloud. Пользователи также могут отслеживать состояние кластера, производительность и использование, а также просматривать журналы и метрики кластера в графическом интерфейсе. Пользователи также могут удалять кластеры Slurm, если они больше не нужны, и платить только за используемые ресурсы.

Как создать рабочую область Azure CycleCloud для Slurm?

Рабочая область Azure CycleCloud для Slurm может быть развернута из Azure Marketplace или с помощью Azure CLI. Чтобы развернуть из Marketplace, сначала найдите Slurm, а затем нажмите кнопку "Создать". Чтобы развернуть с помощью Azure CLI, сначала необходимо создать входной файл параметров, а затем развернуть с помощью команды az deployment sub create. Подробные инструкции можно найти здесь Как развернуть среду Рабочей области CycleCloud Slurm с помощью CLI

Что такое рабочая область Azure CycleCloud для Slurm?

Рабочая область Azure CycleCloud для Slurm не является службой PaaS: вся инфраструктура будет развернута в клиенте, тем самым позволяя развертывать все (развертывание зеленых полей) или указывать существующие ресурсы для повторного использования (развертывание браунфилда), например целевую группу ресурсов, виртуальную сеть, Azure NetApp Files и многое другое.

Как выглядит рабочая область Azure CycleCloud для развернутой среды Slurm

архитектуры обзорной архитектуры

Ниже приведена типичная архитектура развертывания рабочей области Azure CycleCloud для Slurm. Существуют обязательные ресурсы, такие как виртуальная машина для запуска CycleCloud, общая файловая система для домашних каталогов пользователей, учетная запись хранения для хранилища проектов CycleCloud.

Виртуальная сеть может быть развернута рабочей областью Azure CycleCloud для Slurm или существующей, в которой будут созданы ресурсы. При необходимости в собственной подсети будет создана управляемая файловая система Lustre Azure.

Если правила безопасности организации не разрешают общедоступный IP-адрес (и многие это делает), вы сможете создать пиринг виртуальной сети в существующей виртуальной сети в обычном концентраторе и шаблоне периферийных серверов. Затем концентратор будет содержать все службы подключения, такие как шлюз виртуальной сети или бастион Azure.

Наконец, в общедоступном IP-адресе не требуется VPN-среда, бастион будет необходим и обеспечит все защищенные подключения для подключения к веб-порталу CycleCloud и SSH на узлах входа.

Дальнейшие действия