Sdílet prostřednictvím


Image virtuálních počítačů Azure HPC

Platí pro: ✔️ Flexibilní škálovací sady virtuálních ✔️ počítačů s Linuxem – Jednotné škálovací sady ✔️

Tento článek obsahuje některé informace o imagích virtuálních počítačů HPC, které se mají použít ke spuštění virtuálních počítačů řady H-series s podporou technologie InfiniBand a virtuálních počítačů řady N-series s podporou GPU.

Tým Azure HPC nabízí optimalizované a předem nakonfigurované image virtuálních počítačů s Linuxem pro úlohy HPC a AI. Tyto image virtuálních počítačů jsou:

  • Na základě upstreamových imagí virtuálních počítačů s Ubuntu a AlmaLinux na marketplace
  • Předem nakonfigurovaný ovladač NVIDIA Mellanox OFED pro infiniBand, ovladače NVIDIA GPU, oblíbené knihovny MPI, knihovny HPC vyladěné dodavatelem a doporučené optimalizace výkonu.
  • Včetně optimalizací a doporučených konfigurací pro zajištění optimálního výkonu, konzistence a spolehlivosti.

Dostupnost v Azure

Image prostředí HPC můžete použít při vytváření virtuálního počítače z Azure Marketplace nebo Azure CLI. Další metody nasazení najdete v části Nasazení imagí virtuálních počítačů HPC.

Azure Marketplace

Vyhledejte Ubuntu HPC vydavatele Microsoft-DSVMnebo AlmaLinux HPC vydavatele AlmaLinux.

Azure CLI

Spuštěním následujících příkazů vyhledejte adresy URL obrázků prostředí HPC:

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

Všechny image podporují virtuální počítače Gen2.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

Všechny image podporují virtuální počítače Gen 1 i Gen2.

Podporované velikosti virtuálních počítačů

Image virtuálních počítačů HPC podporují následující velikosti virtuálních počítačů:

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

Informace o velikosti virtuálních počítačů Azure najdete v nejnovější matici podpory velikosti virtuálních počítačů řady H-a N-series.

Nainstalované softwarové balíčky

  • Mellanox OFED 24.01-0.3.3.1
  • Předem nakonfigurovaný IPoIB (IP-over-InfiniBand)
  • Oblíbené knihovny MPI založené na infiniBand
    • HPC-X v2.18 s/bez PMIx-4
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2 s PMIx-4
  • Komunikační moduly runtime
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • Modul plug-in NCCL RDMA Sharp
  • Optimalizované knihovny
    • AMD Optimalizace C/C++ a fortran kompilátorů 4.0.0-1
    • Intel MKL 2024.0.0.49673
  • Ovladače GPU
    • Ovladač NVIDIA GPU 535.161.08
    • Paměť NVIDIA Peer (GPU Direct RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • Data Center GPU Manager 3.3.3
  • Nástroj pro diagnostiku prostředí Azure HPC
  • Přizpůsobení na základě skladové položky
    • Soubory topologie
    • Konfigurace seznamu NCCL
  • Moby 24.0.7-ubuntu22.04u1
  • Kontejner NVIDIA Docker 24.0.7-1
  • Spravovaná Lustre Azure 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Kontroly stavu Azure HPC v0.4.2

Nainstalovaný index verze v rámci image virtuálního počítače se nachází v tomto umístění: /opt/azurehpc/component_versions.txt.

Knihovny MPI a softwarové balíčky jsou k dispozici jako moduly prostředí. Pokud chcete načíst knihovnu nebo balíček MPI, spusťte:

module load mpi/<mpi-library-name>
module load <package-name>

Konfigurace a optimalizace

Nejnovější podrobnosti o tom, jaké balíčky a konfigurace jsou součástí jednotlivých imagí virtuálních počítačů, najdete v úložišti azhpc-images na GitHubu. Zahrnuté konfigurace jsou založené na doporučeních pro optimalizaci od dodavatelů a partnerů a také na základě běžného prostředí HPC a postupů používání v tradičních systémech HPC.

  • Agent Azure Linux (WAAgent)

    • Omezte využití prostředků procesoru a paměti agenta waagentu (agenta virtuálního počítače spuštěného na každém virtuálním počítači Azure s Linuxem).
    • Volitelně zvažte zakázání waagentu na začátku skriptu úlohy a jeho povolení zpět na konci pro úlohy citlivé na procesor následujícím způsobem:
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • Vyšší limity paměti

    • Nastavení maximálního limitu uzamčené paměti na neomezenou dobu
    • Nastavení počtu otevřených souborů na 65535
  • Režim uvolnění zóny

    • Nastavení zone_reclaim_mode na 1
  • Zakázání démona brány firewall, který pomáhá spouštěčům úloh MPI

Nasazení imagí virtuálních počítačů HPC

Jak je znázorněno, image virtuálních počítačů HPC jsou dostupné z Azure Marketplace a Azure CLI. Dají se nasadit prostřednictvím různých vozidel nasazení v Azure (Azure CycleCloud, Azure Batch, šablony ARM atd.). Skripty AzureHPC poskytují snadný způsob, jak pomocí těchto imagí rychle nasadit cluster PROSTŘEDÍ HPC.