Dela via


Azure HPC VM-avbildningar

Gäller för: ✔️ Flexibla skalningsuppsättningar för virtuella Linux-datorer ✔️ ✔️ Enhetliga skalningsuppsättningar

Den här artikeln delar viss information om HPC VM-avbildningar som ska användas för att starta InfiniBand-aktiverade virtuella datorer i H-serien och GPU-aktiverade virtuella datorer i N-serien .

Azure HPC-teamet erbjuder optimerade och förkonfigurerade virtuella Linux-avbildningar för HPC- och AI-arbetsbelastningar. Dessa VM-avbildningar är:

  • Baserat på överordnad Ubuntu- och AlmaLinux-marknadsplatsens VM-avbildningar.
  • Förkonfigurerad med NVIDIA Mellanox OFED-drivrutin för InfiniBand, NVIDIA GPU-drivrutiner, populära MPI-bibliotek, leverantörsjusterade HPC-bibliotek och rekommenderade prestandaoptimeringar.
  • Inklusive optimeringar och rekommenderade konfigurationer för att leverera optimal prestanda, konsekvens och tillförlitlighet.

Tillgänglighet i Azure

Du kan använda HPC-avbildningarna när du skapar en virtuell dator från antingen Azure Marketplace eller Azure CLI. Andra distributionsmetoder finns i avsnittet Distribuera HPC VM-avbildningar.

Azure Marketplace

Ubuntu HPC Sök efter av utgivaren Microsoft-DSVM, eller AlmaLinux HPC av utgivaren AlmaLinux.

Azure CLI

Kör följande kommandon för att hitta avbildnings-URL:er för HPC-avbildningarna:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Alla avbildningar stöder virtuella Gen 2-datorer.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Alla avbildningar stöder både virtuella Datorer i Gen 1 och Gen 2.

VM-storlekar som stöds

HPC VM-avbildningarna stöder följande VM-storlekar:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Se Storlekar för virtuella Azure-datorer för den senaste stödmatrisen för virtuella datorer i H- och N-serien.

Installerade programvarupaket

  • Mellanox OFED 24.01-0.3.3.1
  • Förkonfigurerad IPoIB (IP-over-InfiniBand)
  • Populära InfiniBand-baserade MPI-bibliotek
    • HPC-X v2.18 med/utan PMIx-4
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 med PMIx-4
  • Kommunikationskörningar
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • NCCL RDMA Sharp Plugin
  • Optimerade bibliotek
    • AMD-optimering av C/C++ och Fortran-kompilatorer 4.0.0-1
    • Intel MKL 2024.0.0.49673
  • GPU-drivrutiner
    • NVIDIA GPU Driver 535.161.08
    • NVIDIA Peer Memory (GPU Direct RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • Data Center GPU Manager 3.3.3
  • Diagnostikverktyg för Azure HPC
  • SKU-baserade anpassningar
    • Topologifiler
    • NCCL-konfiguration
  • Moby 24.0.7-ubuntu22.04u1
  • NVIDIA Docker-container 24.0.7-1
  • Azure Managed Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Azure HPC-hälsokontroller v0.4.2

Ett installerat versionsindex i vm-avbildningen finns på den här platsen: /opt/azurehpc/component_versions.txt.

MPI-bibliotek och programvarupaket är tillgängliga som miljömoduler. Om du vill läsa in ett MPI-bibliotek/-paket kör du:

module load mpi/<mpi-library-name>
module load <package-name>

Konfiguration och optimering

Se lagringsplatsen azhpc-images på GitHub för den senaste informationen om vilka paket och konfigurationer som ingår i varje VM-avbildning. De inkluderade konfigurationerna baseras på optimeringsrekommendationer från leverantörer och partner, samt lärdomar från vanliga HPC-arbetsbelastningar och användningsmetoder i traditionella HPC-system.

  • Azure Linux-agent (WAAgent)

    • Begränsa waagents (VM-agent som körs på varje virtuell Azure Linux-dator) användning av PROCESSOR-/minnesresurser.
    • Du kan också överväga att inaktivera waagent i början av jobbskriptet och aktivera det igen i slutet för CPU-känsliga arbetsbelastningar på följande sätt:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Högre minnesgränser

    • Ange max-locked-memory limit till obegränsad
    • Ange gränsen för antalet öppna filer till 65535
  • Zonåterhämtningsläge

    • Ange zone_reclaim_mode till 1
  • Inaktivera brandväggsdaemon för att hjälpa MPI-jobbstartare

Distribuera HPC VM-avbildningar

Som du ser är HPC VM-avbildningarna tillgängliga från Azure Marketplace och Azure CLI. De kan distribueras via en mängd olika distributionsfordon i Azure (Azure CycleCloud, Azure Batch, ARM-mallar osv.). AzureHPC-skript är ett enkelt sätt att snabbt distribuera ett HPC-kluster med hjälp av dessa avbildningar .