다음을 통해 공유


Azure HPC VM 이미지

적용 대상: ✔️ Linux VM ✔️ 유연한 확장 집합 ✔️ 균일한 확장 집합

이 문서에서는 InfiniBand 지원 H 시리즈 및 GPU 지원 N 시리즈 VM을 시작하는 데 사용할 HPC VM 이미지의 몇 가지 메시지를 공유합니다.

Azure HPC 팀은 HPC 및 AI 워크로드에 최적화되고 미리 구성된 Linux VM 이미지를 제공합니다. 이러한 VM 이미지는 다음과 같습니다.

  • 업스트림 Ubuntu 및 AlmaLinux 마켓플레이스 VM 이미지를 기준으로 합니다.
  • InfiniBand용 NVIDIA Mellanox OFED 드라이버, NVIDIA GPU 드라이버, 인기 있는 MPI 라이브러리, 공급업체 튜닝 HPC 라이브러리 및 권장 성능 최적화로 미리 구성되었습니다.
  • 최적의 성능, 일관성 및 안정성을 제공하기 위한 최적화 및 권장 구성을 포함합니다.

Azure의 가용성

Azure Marketplace 또는 Azure CLI에서 VM을 만들 때 HPC 이미지를 사용할 수 있습니다. 다른 배포 방법은 HPC VM 이미지 배포 섹션을 참조하세요.

Azure Marketplace

Microsoft-DSVM 게시자의 Ubuntu HPC 또는 AlmaLinux 게시자의 AlmaLinux HPC을(를) 검색하세요.

Azure CLI

다음 명령을 실행하여 HPC 이미지의 이미지 URL을 찾습니다.

Ubuntu-HPC

az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all

모든 이미지는 2세대 VM을 지원합니다.

AlmaLinux-HPC

az vm image list --publisher almalinux --offer almalinux-hpc --output table --all

모든 이미지는 1세대 및 2세대 VM을 모두 지원합니다.

지원되는 VM 크기

HPC VM 이미지는 다음 VM 크기를 지원합니다.

  • Standard_HB60rs
  • Standard_HB120rs_v2
  • Standard_HB120rs_v3
  • Standard_HB120rs_v4
  • Standard_HC44rs
  • Standard_ND40rs_v2
  • Standard_ND96asr_v4
  • Standard_ND96amsr_A100_v4
  • Standard_ND96isr_H100_v5

최신 H 및 N 시리즈 VM 크기 지원 매트릭스에 대한 Azure VM 크기를 참조하세요.

설치된 소프트웨어 패키지

  • Mellanox OFED 24.01-0.3.3.1
  • 미리 구성된 IPoIB(IP-over-InfiniBand)
  • 인기 있는 InfiniBand 기반 MPI 라이브러리
    • HPC-X v2.18(PMIx-4 포함/제외)
    • Intel MPI 2021.12.0
    • MVAPICH2 2.3.7-1
    • OpenMPI 5.0.2(PMIx-4 포함)
  • 통신 런타임
    • Libfabric
    • OpenUCX
    • NCCL 2.21.5-1
    • NCCL RDMA Sharp 플러그인
  • 최적화된 라이브러리
    • AMD C/C++ 및 Fortran 컴파일러 4.0.0-1 최적화
    • Intel MKL 2024.0.0.49673
  • GPU 드라이버
    • NVIDIA GPU Driver 535.161.08
    • NVIDIA 피어 메모리(GPU 직접 RDMA)
    • NVIDIA Fabric Manager
    • CUDA 12.4
  • GDRCopy 2.3
  • 데이터 센터 GPU 관리자 3.3.3
  • Azure HPC 진단 도구
  • SKU 기반 사용자 지정
    • 토폴로지 파일
    • NCCL 구성
  • Moby 24.0.7-ubuntu22.04u1
  • NVIDIA Docker 컨테이너 24.0.7-1
  • Azure Managed Lustre 2.15.4-42-gd6d405d
  • Moneo v0.3.5
  • Azure HPC Health Checks v0.4.2

VM 이미지 내에 설치된 버전 인덱스는 /opt/azurehpc/component_versions.txt 위치에 있습니다.

MPI 라이브러리 및 소프트웨어 패키지는 환경 모듈로 사용할 수 있습니다. MPI 라이브러리/패키지를 로드하려면 다음을 실행합니다.

module load mpi/<mpi-library-name>
module load <package-name>

구성 및 최적화

각 VM 이미지에 포함된 패키지 및 구성에 대한 최신 세부 정보는 GitHub의 azhpc-images 리포지토리를 참조하세요. 포함된 구성은 공급업체 및 파트너의 최적화 권장 사항뿐만 아니라 기존 HPC 시스템의 일반적인 HPC 워크로드 및 사용량 사례에서 얻은 학습을 기반으로 합니다.

  • Azure Linux 에이전트(WAAgent)

    • waagent(모든 Azure Linux VM에서 실행 중인 VM 에이전트)의 CPU/메모리 리소스 사용량을 제한합니다.
    • 필요에 따라 다음과 같이 작업 스크립트의 시작 부분에서 waagent를 사용하지 않도록 설정하고, CPU 중요한 워크로드의 경우 마지막에 다시 사용하도록 설정해 보세요.
    sudo systemctl stop waagent
    <HPC job>
    sudo systemctl restart waagent
    
  • 메모리 제한 상승

    • 최대 잠금 메모리 제한을 무제한으로 설정
    • 열려 있는 파일 제한 수를 65535로 설정
  • 영역 회수 모드

    • zone_reclaim_mode를 1로 설정
  • 방화벽 디먼을 사용하지 않도록 설정하여 MPI 작업 시작 관리자 지원

HPC VM 이미지 배포

표시된 대로, HPC VM 이미지는 Azure Marketplace 및 Azure CLI에서 사용할 수 있습니다. Azure에서 다양한 배포 수단(Azure CycleCloud, Azure Batch, ARM 템플릿 등)을 통해 배포할 수 있습니다. AzureHPC 스크립트는 이러한 이미지를 사용하여 HPC 클러스터를 빨리 배포하는 쉬운 방법을 제공합니다.