Azure HPC VM 이미지
적용 대상: ✔️ Linux VM ✔️ 유연한 확장 집합 ✔️ 균일한 확장 집합
이 문서에서는 InfiniBand 지원 H 시리즈 및 GPU 지원 N 시리즈 VM을 시작하는 데 사용할 HPC VM 이미지의 몇 가지 메시지를 공유합니다.
Azure HPC 팀은 HPC 및 AI 워크로드에 최적화되고 미리 구성된 Linux VM 이미지를 제공합니다. 이러한 VM 이미지는 다음과 같습니다.
- 업스트림 Ubuntu 및 AlmaLinux 마켓플레이스 VM 이미지를 기준으로 합니다.
- InfiniBand용 NVIDIA Mellanox OFED 드라이버, NVIDIA GPU 드라이버, 인기 있는 MPI 라이브러리, 공급업체 튜닝 HPC 라이브러리 및 권장 성능 최적화로 미리 구성되었습니다.
- 최적의 성능, 일관성 및 안정성을 제공하기 위한 최적화 및 권장 구성을 포함합니다.
Azure의 가용성
Azure Marketplace 또는 Azure CLI에서 VM을 만들 때 HPC 이미지를 사용할 수 있습니다. 다른 배포 방법은 HPC VM 이미지 배포 섹션을 참조하세요.
Azure Marketplace
Microsoft-DSVM
게시자의 Ubuntu HPC
또는 AlmaLinux
게시자의 AlmaLinux HPC
을(를) 검색하세요.
Azure CLI
다음 명령을 실행하여 HPC 이미지의 이미지 URL을 찾습니다.
Ubuntu-HPC
az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all
모든 이미지는 2세대 VM을 지원합니다.
AlmaLinux-HPC
az vm image list --publisher almalinux --offer almalinux-hpc --output table --all
모든 이미지는 1세대 및 2세대 VM을 모두 지원합니다.
지원되는 VM 크기
HPC VM 이미지는 다음 VM 크기를 지원합니다.
- Standard_HB60rs
- Standard_HB120rs_v2
- Standard_HB120rs_v3
- Standard_HB120rs_v4
- Standard_HC44rs
- Standard_ND40rs_v2
- Standard_ND96asr_v4
- Standard_ND96amsr_A100_v4
- Standard_ND96isr_H100_v5
최신 H 및 N 시리즈 VM 크기 지원 매트릭스에 대한 Azure VM 크기를 참조하세요.
설치된 소프트웨어 패키지
- Mellanox OFED 24.01-0.3.3.1
- 미리 구성된 IPoIB(IP-over-InfiniBand)
- 인기 있는 InfiniBand 기반 MPI 라이브러리
- HPC-X v2.18(PMIx-4 포함/제외)
- Intel MPI 2021.12.0
- MVAPICH2 2.3.7-1
- OpenMPI 5.0.2(PMIx-4 포함)
- 통신 런타임
- Libfabric
- OpenUCX
- NCCL 2.21.5-1
- NCCL RDMA Sharp 플러그인
- 최적화된 라이브러리
- AMD C/C++ 및 Fortran 컴파일러 4.0.0-1 최적화
- Intel MKL 2024.0.0.49673
- GPU 드라이버
- NVIDIA GPU Driver 535.161.08
- NVIDIA 피어 메모리(GPU 직접 RDMA)
- NVIDIA Fabric Manager
- CUDA 12.4
- GDRCopy 2.3
- 데이터 센터 GPU 관리자 3.3.3
- Azure HPC 진단 도구
- SKU 기반 사용자 지정
- 토폴로지 파일
- NCCL 구성
- Moby 24.0.7-ubuntu22.04u1
- NVIDIA Docker 컨테이너 24.0.7-1
- Azure Managed Lustre 2.15.4-42-gd6d405d
- Moneo v0.3.5
- Azure HPC Health Checks v0.4.2
VM 이미지 내에 설치된 버전 인덱스는 /opt/azurehpc/component_versions.txt
위치에 있습니다.
MPI 라이브러리 및 소프트웨어 패키지는 환경 모듈로 사용할 수 있습니다. MPI 라이브러리/패키지를 로드하려면 다음을 실행합니다.
module load mpi/<mpi-library-name>
module load <package-name>
구성 및 최적화
각 VM 이미지에 포함된 패키지 및 구성에 대한 최신 세부 정보는 GitHub의 azhpc-images 리포지토리를 참조하세요. 포함된 구성은 공급업체 및 파트너의 최적화 권장 사항뿐만 아니라 기존 HPC 시스템의 일반적인 HPC 워크로드 및 사용량 사례에서 얻은 학습을 기반으로 합니다.
Azure Linux 에이전트(WAAgent)
- waagent(모든 Azure Linux VM에서 실행 중인 VM 에이전트)의 CPU/메모리 리소스 사용량을 제한합니다.
- 필요에 따라 다음과 같이 작업 스크립트의 시작 부분에서 waagent를 사용하지 않도록 설정하고, CPU 중요한 워크로드의 경우 마지막에 다시 사용하도록 설정해 보세요.
sudo systemctl stop waagent <HPC job> sudo systemctl restart waagent
메모리 제한 상승
- 최대 잠금 메모리 제한을 무제한으로 설정
- 열려 있는 파일 제한 수를 65535로 설정
영역 회수 모드
- zone_reclaim_mode를 1로 설정
방화벽 디먼을 사용하지 않도록 설정하여 MPI 작업 시작 관리자 지원
HPC VM 이미지 배포
표시된 대로, HPC VM 이미지는 Azure Marketplace 및 Azure CLI에서 사용할 수 있습니다. Azure에서 다양한 배포 수단(Azure CycleCloud, Azure Batch, ARM 템플릿 등)을 통해 배포할 수 있습니다. AzureHPC 스크립트는 이러한 이미지를 사용하여 HPC 클러스터를 빨리 배포하는 쉬운 방법을 제공합니다.