Поделиться через


Образы виртуальных машин Azure HPC

Область применения: ✔️ Виртуальные машины Linux ✔️ Гибкие масштабируемые наборы ✔️ Универсальные масштабируемые наборы

В этой статье содержатся некоторые сведения о образах виртуальных машин HPC, которые будут использоваться для запуска виртуальных машин серии H и GPU с поддержкой N.

Команда Azure HPC рада сообщить о доступности оптимизированных и предварительно настроенных образов виртуальных машин Linux для рабочих нагрузок HPC и ИИ. Эти образы виртуальных машин:

  • На основе образов виртуальных машин Vanilla Ubuntu и AlmaLinux Marketplace.
  • Предварительно настроен с драйвером NVIDIA Mellanox OFED для InfiniBand, драйверов GPU NVIDIA, популярных библиотек MPI, настроенных поставщиком библиотек HPC и рекомендуемых оптимизаций производительности.
  • Включая оптимизацию и рекомендуемые конфигурации для обеспечения оптимальной производительности, согласованности и надежности.

Доступность в Azure

Образы HPC можно использовать при создании виртуальной машины из Azure Marketplace или Azure CLI. Сведения о других методах развертывания см. в разделе "Развертывание образов виртуальных машин HPC".

Azure Marketplace

Ubuntu HPC Поиск издателем Microsoft-DSVMили AlmaLinux HPC издателемAlmaLinux.

Azure CLI

Выполните следующие команды, чтобы найти URL-адреса образа образов HPC:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Все образы поддерживают виртуальные машины 2-го поколения.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Все образы поддерживают виртуальные машины 1-го поколения и 2-го поколения.

Поддерживаемые размеры виртуальных машин

Образы виртуальных машин HPC поддерживают следующие размеры виртуальных машин:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Сведения о размерах виртуальных машин Azure см. в последней таблице поддержки размера виртуальных машин серии H и N.

Установленные пакеты программного обеспечения

  • Mellanox OFED 24.01-0.3.3.1
  • Предварительно настроен IPoIB (IP-over-InfiniBand)
  • Популярные библиотеки MPI на основе InfiniBand
    • HPC-X версии 2.18 с PMIx-4 и без нее
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 с PMIx-4
  • Среда выполнения коммуникации
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • Подключаемый модуль RDMA NCCL
  • Оптимизированные библиотеки
    • Amd Optimizing C/C++ и Fortran Compilers 4.0.0-1
    • Intel MKL 2024.0.0.49673
  • Драйверы GPU
    • Драйвер GPU NVIDIA 535.161.08
    • Одноранговая память NVIDIA (GPU Direct RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • Диспетчер GPU Центра обработки данных 3.3.3
  • Средство диагностики Azure HPC
  • Настройки на основе SKU
    • Файлы топологии
    • Конфигурация NCCL
  • Moby 24.0.7-ubuntu22.04u1
  • Контейнер NVIDIA Docker 24.0.7-1
  • Управляемый Azure Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Проверка работоспособности Azure HPC версии 0.4.2

Установленный индекс версии в образе виртуальной машины находится в этом расположении: /opt/azurehpc/component_versions.txt

Библиотеки MPI и пакеты программного обеспечения доступны в виде модулей среды. Чтобы загрузить библиотеку или пакет MPI, выполните следующую команду:

module load mpi/<mpi-library-name>
module load <package-name>

Настройка и оптимизация

Дополнительные сведения о том, какие пакеты и конфигурации включены в каждый образ виртуальной машины, см. в репозитории azhpc-образов на сайте GitHub. Включенные конфигурации основаны на рекомендациях по оптимизации от поставщиков и партнеров, а также на основе общих рабочих нагрузок HPC и методик использования в традиционных системах HPC.

  • Агент Linux Azure (WAAgent)

    • Ограничение использования ресурсов ЦП и памяти waagent (агента виртуальной машины, работающего на каждой виртуальной машине Linux Azure).
    • При необходимости рекомендуется отключить waagent в начале скрипта задания и включить его обратно в конце для конфиденциальных рабочих нагрузок ЦП следующим образом:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Более высокие ограничения памяти

    • Установите ограничение максимально заблокированной памяти на неограниченное
    • Задать количество открытых файлов в 65535
  • Режим восстановления зоны

    • Задайте для zone_reclaim_mode значение 1
  • Отключение управляющей программы брандмауэра для запуска заданий MPI

Развертывание образов виртуальных машин HPC

Как показано ниже, образы виртуальных машин HPC доступны из Azure Marketplace и Azure CLI. Их можно развернуть с помощью различных транспортных средств развертывания в Azure (Azure CycleCloud, пакетная служба Azure, шаблонов ARM и т. д.). Скрипты AzureHPC позволяют быстро развернуть кластер HPC с помощью этих образов.