Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Рабочая область Azure CycleCloud для Slurm — это бесплатное приложение Marketplace, которое предоставляет простой, безопасный и масштабируемый способ управления ресурсами вычислений и хранилища для рабочих нагрузок HPC и ИИ. В этом кратком руководстве описано, как установить рабочую область CycleCloud для Slurm с помощью приложения из Azure Marketplace.
Ниже приведены основные действия по развертыванию и настройке Рабочей области CycleCloud для Slurm с проверкой подлинности идентификатора Microsoft Entra ID:
- Ознакомьтесь с этими инструкциями перед началом работы: планирование рабочей области CycleCloud для развертывания Slurm.
- Разверните рабочую область CycleCloud для среды Slurm через Azure Marketplace (в этом быстром запуске).
- Зарегистрируйте приложение Microsoft Entra ID: создайте регистрацию приложения Microsoft Entra для использования с Azure CycleCloud и Azure CycleCloud Workspace для Slurm.
- Настройка Open OnDemand для использования приложения идентификатора Microsoft Entra ID: настройка Open OnDemand с помощью CycleCloud
- Добавление пользователей в зарегистрированное приложение Microsoft Entra ID: назначение разрешений для пользователей в CycleCloud
Предпосылки
Для работы с этим кратким руководством вам потребуется:
- Учетная запись Azure с активной подпиской
- Роли "Участник " и "Администратор доступа пользователей " на уровне подписки
- Прямое подключение к виртуальной сети, используемой кластером (т. е. не с помощью Бастиона Azure), если необходимо развернуть Open OnDemand.
- Необходимо разрешение на регистрацию приложения Microsoft Entra ID, если нужно развернуть Open OnDemand.
Развертывание
- Войдите на портал Azure.
- Выберите + Создать ресурс.
- В поле "Поиск" и "Marketplace " введите Slurm и выберите рабочую область Azure CycleCloud для Slurm.
- На странице "Рабочая область Azure CycleCloud для Slurm " нажмите кнопку "Создать".
Основы
- На странице "Новая рабочая область Azure CycleCloud для Slurm" введите или выберите следующие сведения.
- Подписка: выберите подписку для использования, если она еще не выбрана.
- Регион. Выберите регион Azure, в котором необходимо развернуть рабочую область CycleCloud для среды Slurm.
- Группа ресурсов. Выберите группу ресурсов для рабочей области Azure CycleCloud для Slurm или создайте новую.
- Размер виртуальной машины CycleCloud: выберите новый размер виртуальной машины или сохраните ее по умолчанию.
- Администратор: введите имя и пароль для учетной записи администратора CycleCloud.
- Открытый ключ SSH администратора. Выберите открытый ключ SSH учетной записи администратора напрямую или, если он хранится в ресурсе ключа SSH в Azure.
Файловая система
Домашний каталог пользователей — создание нового
Укажите, куда поместить домашний каталог пользователей.
Встроенная NFS — использует виртуальную машину планировщика в качестве сервера NFS с подключенным диском данных.
Azure NetApp Files — создает учетную запись ANF, пул и том с указанной емкостью и уровнем обслуживания.
Домашний каталог пользователя — использовать существующий
Если у вас есть существующая точка подключения NFS, выберите параметр Use Existing (Использовать существующий ) и укажите параметры для его подключения.
Дополнительное подключение файловой системы — создание нового подключения
Если необходимо подключить другую файловую систему для данных проекта, можно создать новую или указать существующую. Вы можете создать новый том Azure NetApp Files или управляемую файловую систему Lustre Azure.
Дополнительное подключение файловой системы— использовать существующее
Если у вас есть внешняя точка подключения NFS или управляемая файловая система Lustre Azure, можно указать параметры подключения.
Сети
Укажите, нужно ли создать виртуальную сеть и подсети или использовать существующую.
Создание виртуальной сети
- Выберите CIDR, соответствующий количеству целевых вычислительных узлов, и укажите базовый IP-адрес.
- Создайте бастион, если ит-служба вашей организации не предоставляет прямого подключения.
- Создайте шлюз NAT для обеспечения исходящего подключения к Интернету.
- Подключите к существующей виртуальной сети, если у вас уже есть HUB, который может предоставлять такие службы, как Бастион и VPN-шлюз. Убедитесь, что вы выбрали базовый IP-адрес, совместимый с одноранговой виртуальной сетью. Если одноранговая виртуальная сеть имеет шлюз, проверьте параметр "Разрешить транзит шлюза".
Использование имеющейся виртуальной сети
Прежде чем использовать существующую виртуальную сеть, проверьте предварительные требования в разделе "Планирование рабочей области CycleCloud для развертывания Slurm".
Укажите, как управлять регистрацией частной конечной точки, используемой для учетной записи хранения для хранения проектов CycleCloud с частной зоной DNS. Вы можете создать частную зону DNS, использовать существующую или не зарегистрировать ее.
Параметры Slurm
Укажите размер и образ виртуальной машины для планировщика и узлов проверки подлинности. Изображения — это образы HPC в Azure Marketplace со следующими URI:
| Имя изображения | УРИ |
|---|---|
| Альма Linux 8.10 | almalinux:almalinux-hpc:8_10-hpc-gen2:latest |
| Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
| Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
| Пользовательское изображение | Необходимо указать URN изображения или идентификатор изображения. |
Если вы выбрали Custom Image, укажите URN образа для существующего образа Marketplace или идентификатор образа для образа в Коллекции изображений Azure Compute.
Чтобы использовать один и тот же образ для планировщика, узлов проверки подлинности и вычислительных узлов, выберите "Использовать образ" на всех узлах.
Укажите количество узлов проверки подлинности, которые необходимо подготовить изначально, и максимально допустимое число. При включении проверок работоспособности решение автоматически выполняет проверки работоспособности узлов для секций HPC и GPU и удаляет все неработоспособные узлы. Вы можете отложить запуск кластера, если необходимо настроить дополнительные параметры на портале CycleCloud.
Чтобы включить учет заданий Slurm, установите флажок для отображения параметров подключения. Убедитесь, что у вас есть гибкий ресурс сервера Базы данных Azure для MySQL, развернутый ранее.
Вы можете подключиться с помощью полного доменного имени или частного IP-адреса, при условии, что вы предоставляете собственную виртуальную сеть. Пиринг между виртуальными сетями также можно использовать при создании новой виртуальной сети в рамках развертывания. Если вы решили создать новую виртуальную сеть, можно также подключиться через частную конечную точку.
Параметры раздела
Рабочая область Azure CycleCloud для Slurm включает три определенных раздела Slurm:
- HTC: для неловко параллельных заданий, отличных от MPI.
- HPC: для тесно связанных заданий MPI, которые в основном используют типы виртуальных машин с поддержкой InfiniBand или без них.
- GPU: для заданий GPU, отличных от MPI, которые используют типы виртуальных машин с поддержкой InfiniBand или без нее.
Вы можете задать изображение и максимальное количество узлов для каждой секции, которая динамически создает CycleCloud. Только раздел HTC позволяет использовать точечные экземпляры, так как точечные экземпляры не работают хорошо для заданий HPC и GPU.
Открыть OnDemand
Чтобы использовать Open OnDemand, установите флажок и введите следующие сведения:
- имя изображения,
- доменное имя (
contoso.com), которое система использует для получения имени пользователя (user@contoso.com) и сопоставления с локальной учетной записью Linux (user), которая управляет CycleCloud для проверки подлинности, - полное доменное имя веб-сервера Open OnDemand (оставьте пустым, если вы хотите использовать частный IP-адрес),
- Планируется ли использовать существующее приложение Microsoft Entra ID или зарегистрировать его вручную.
Automatically register Entra ID application— это дополнительный параметр, который отображается только при использовании развертывания CLI.
Замечание
Для проверки подлинности пользователей требуется приложение Идентификатора Microsoft Entra. Если наши скрипты не создают приложение, создайте его вручную. Дополнительные сведения см. в статье "Создание регистрации приложения Microsoft Entra" для использования с Azure CycleCloud и рабочей областью Azure CycleCloud для Slurm.
Продвинутый
Вы можете включить зоны доступности для вычислительных узлов кластера и новых ресурсов файловой системы. Размещение вычислительных узлов и хранилища в одной зоне доступности обеспечивает минимальную задержку между ними.
Теги
Назначьте соответствующие теги необходимым ресурсам. CycleCloud динамически подготавливает виртуальные машины и применяет к ним теги массива узлов.
Проверка и создание
Просмотрите варианты. Этот шаг также включает некоторые проверки.
После завершения проверки нажмите кнопку "Создать ", чтобы инициализировать развертывание.
Следуйте статусу и шагам развертывания.
Проверьте ваше развертывание
Подключитесь к бастиону ccw-cyclecloud-vm с помощью имени пользователя и SSH-ключей, которые вы указали во время развертывания.
После подключения проверьте журналы cloud-init, чтобы убедиться, что все правильно.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Затем настройте подключение между клиентским компьютером и виртуальной машиной CycleCloud. Ваш корпоративный ИТ-отдел может помочь вам настроить подключение через VPN, туннелирование через Bastion, или предоставленный публичный IP-адрес, если это разрешено вашей компанией. Откройте веб-интерфейс по следующему адресу https://<cyclecloud_ip>. Войдите с помощью имени пользователя и пароля, которые вы предоставляете во время развертывания. Убедитесь, что и планировщик, и узел входа запущены.
Ресурсы
- Создайте регистрацию приложения Microsoft Entra для использования с Azure CycleCloud и рабочей средой Azure CycleCloud при работе с Slurm
- Настройка Open OnDemand с помощью CycleCloud
- Добавьте пользователей в свое зарегистрированное приложение Microsoft Entra ID
- Подключение к порталу CycleCloud через Бастион
- Подключение к узлу входа через бастион
- Развертывание рабочей области CycleCloud для среды Slurm с помощью интерфейса командной строки