Partilhar via


Imagens de VM HPC do Azure

Aplica-se a: ✔️ Linux VMs ✔️ Conjuntos ✔️ de escala flexíveis Conjuntos de balanças uniformes

Este artigo compartilha algumas informações sobre imagens de VM HPC a serem usadas para iniciar VMs da série H habilitadas para InfiniBand e GPU habilitadas para série N.

A equipe de HPC do Azure está oferecendo imagens de VM Linux otimizadas e pré-configuradas para cargas de trabalho de HPC e IA. Estas imagens de VM são:

  • Baseado em imagens upstream de VM do mercado Ubuntu e AlmaLinux.
  • Pré-configurado com driver NVIDIA Mellanox OFED para InfiniBand, drivers de GPU NVIDIA, bibliotecas MPI populares, bibliotecas HPC ajustadas pelo fornecedor e otimizações de desempenho recomendadas.
  • Incluindo otimizações e configurações recomendadas para oferecer desempenho, consistência e confiabilidade ideais.

Disponibilidade no Azure

Você pode usar as imagens HPC ao criar uma VM do Azure Marketplace ou da CLI do Azure. Para outros métodos de implantação, consulte a seção Implantando imagens de VM HPC.

Azure Marketplace

Ubuntu HPC Pesquise pelo editor Microsoft-DSVMou AlmaLinux HPC pelo editor AlmaLinux.

CLI do Azure

Execute os seguintes comandos para localizar URNs de imagem das imagens HPC:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Todas as imagens suportam VMs Gen 2.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Todas as imagens suportam VMs Gen 1 e Gen 2.

Tamanhos de VM suportados

As imagens de VM HPC suportam os seguintes tamanhos de VM:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Consulte os tamanhos de VM do Azure para obter a matriz de suporte de tamanho de VM das séries H e N mais recente.

Pacotes de software instalados

  • Mellanox OFED 24.01-0.3.3.1
  • IPoIB pré-configurado (IP-over-InfiniBand)
  • Bibliotecas MPI populares baseadas em InfiniBand
    • HPC-X v2.18 com/sem PMIx-4
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 com PMIx-4
  • Tempos de execução da comunicação
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • NCCL RDMA Sharp Plugin
  • Bibliotecas otimizadas
    • AMD otimizando compiladores C/C++ e Fortran 4.0.0-1
    • Intel MKL 2024.0.0.49673
  • GPU Drivers
    • NVIDIA GPU Driver 535.161.08
    • Memória par NVIDIA (GPU Direct RDMA)
    • Gerenciador de malha NVIDIA
    • CUDA 12,4
  • GDRCopy 2,3
  • Gerenciador de GPU de data center 3.3.3
  • Ferramenta de Diagnóstico HPC do Azure
  • Personalizações baseadas em SKU
    • Arquivos de topologia
    • Configuração NCCL
  • Moby 24.0.7-ubuntu22.04u1
  • Contêiner NVIDIA Docker 24.0.7-1
  • Azure Managed Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Verificações de integridade do Azure HPC v0.4.2

Um índice de versão instalado na imagem da VM está localizado neste local: /opt/azurehpc/component_versions.txt.

Bibliotecas MPI e pacotes de software estão disponíveis como módulos de ambiente. Para carregar uma biblioteca/pacote MPI, execute:

module load mpi/<mpi-library-name>
module load <package-name>

Configuração e otimização

Consulte o repositório azhpc-images no GitHub para obter os detalhes mais recentes sobre quais pacotes e configurações estão incluídos em cada imagem de VM. As configurações incluídas baseiam-se em recomendações de otimização de fornecedores e parceiros, bem como em aprendizagens de cargas de trabalho de HPC comuns e práticas de utilização em sistemas HPC tradicionais.

  • Agente Linux do Azure (WAAgent)

    • Limite o uso de recursos de CPU/memória do waagent (agente de VM em execução em cada VM Linux do Azure).
    • Opcionalmente, considere desativar o waagent no início do script de trabalho e habilitá-lo novamente no final, para cargas de trabalho sensíveis à CPU da seguinte maneira:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Limites de memória mais elevados

    • Defina o limite máximo de memória bloqueada como ilimitado
    • Definir o limite de número de arquivos abertos para 65535
  • Modo de recuperação de zona

    • Definir zone_reclaim_mode para 1
  • Desative o daemon de firewall para ajudar os iniciadores de tarefas MPI

Implantando imagens de VM HPC

Conforme mostrado, as imagens de VM HPC estão disponíveis no Azure Marketplace e na CLI do Azure. Eles podem ser implantados por meio de uma variedade de veículos de implantação no Azure (Azure CycleCloud, Azure Batch, modelos ARM, etc.). Os scripts AzureHPC fornecem uma maneira fácil de implantar rapidamente um cluster HPC usando essas imagens.