ND H100 v5 시리즈 VM(가상 머신)은 Azure GPU 제품군에 새롭게 추가된 주력 제품입니다. 이 시리즈는 고급 딥 러닝 학습과 긴밀하게 결합된 스케일 업 및 스케일 아웃 생성형 AI 및 HPC 워크로드를 위해 설계되었습니다.
ND H100 v5 시리즈는 단일 VM과 8개의 NVIDIA H100 Tensor Core GPU로 시작합니다. ND H100 v5 기반 배포는 VM당 3.2Tbps의 상호 연결 대역폭을 사용하여 수천 개의 GPU로 스케일 업할 수 있습니다. VM 내의 각 GPU에는 고유한 전용 토폴로지 독립적 400Gb/s NVIDIA Quantum-2 CX7 InfiniBand 연결이 제공됩니다. 이러한 연결은 동일한 가상 머신 확장 집합을 차지하는 VM 간에 자동으로 구성되며 GPU 직접 RDMA를 지원합니다.
각 GPU는 VM 내 통신을 위한 NVLINK 4.0 연결을 제공하며 인스턴스에는 96개의 물리적 4세대 Intel Xeon 확장 가능 프로세서 코어에서 지원됩니다.
이러한 인스턴스는 GPU 가속화를 ‘기본으로’ 지원하는 많은 AI, ML, 분석 도구(예: TensorFlow, Pytorch, Caffe, RAPIDS, 다른 프레임워크)에 탁월한 성능을 제공합니다. 또한 스케일 아웃 InfiniBand 상호 연결은 GPU의 원활한 클러스터링을 위해 NVIDIA의 NCCL 통신 라이브러리를 기반으로 하는 대규모 기존 AI 및 HPC 도구 집합에서 지원됩니다.
ND H100 v5 VM을 시작하려면 HPC 워크로드 구성 및 최적화에서 드라이버 및 네트워크 구성 등의 단계를 참조하세요.
GPU 메모리 I/O 공간 증가로 인해 ND H100 v5에는 2세대 VM 및 마켓플레이스 이미지를 사용해야 합니다.
Azure는 ND H100 v5 VM용 Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 및 SLES 15를 지원합니다. 현재 Ubuntu-HPC 20.4/22.04 및 AlmaLinux-HPC 8.6/8.7 VM 이미지가 지원됩니다.
다양한 HPC 도구 및 라이브러리가 설치된 HPC/AI 워크로드에 최적화되고 미리 구성된 Linux VM 이미지가 제공되므로 권장됩니다.
1임시 디스크 속도는 RR(임의 읽기) 작업과 RW(임의 쓰기) 작업 간에 다른 경우가 많습니다. RR 작업은 일반적으로 RW 작업보다 빠릅니다. RW 속도는 대개 RR 속도 값만 나열되는 계열의 RR 속도보다 느립니다.
스토리지 용량 단위는 GiB(1024^3바이트) 단위로 표시됩니다. GB(1000^3바이트) 단위로 측정된 디스크를 GiB(1024^3바이트) 단위로 측정된 디스크와 비교할 때는 GiB 단위로 지정된 용량 수치가 더 작게 표시될 수 있음에 유의해야 합니다. 예를 들어 1023GiB = 1098.4GB입니다.
디스크 처리량은 IOPS(초당 입/출력 작업 수) 및 MBps로 측정되며, MBps = 10^6바이트/초입니다.
VM에 가장 적합한 스토리지 성능을 얻는 방법에 대해 알아보려면 가상 머신 및 디스크 성능을 참조하세요.
스토리지 용량 단위는 GiB(1024^3바이트) 단위로 표시됩니다. GB(1000^3바이트) 단위로 측정된 디스크를 GiB(1024^3바이트) 단위로 측정된 디스크와 비교할 때는 GiB 단위로 지정된 용량 수치가 더 작게 표시될 수 있음에 유의해야 합니다. 예를 들어 1023GiB = 1098.4GB입니다.
디스크 처리량은 IOPS(초당 입/출력 작업 수) 및 MBps로 측정되며, MBps = 10^6바이트/초입니다.
데이터 디스크는 캐시된 모드 또는 캐시되지 않은 모드에서 작동할 수 있습니다. 캐시된 데이터 디스크 작업의 경우 호스트 캐시 모드가 ReadOnly 또는 ReadWrite로 설정됩니다. 캐시되지 않은 데이터 디스크 작업의 경우에는 호스트 캐시 모드가 None으로 설정됩니다.
VM에 가장 적합한 스토리지 성능을 얻는 방법에 대해 알아보려면 가상 머신 및 디스크 성능을 참조하세요.
예상 네트워크 대역폭은 모든 NIC에서 모든 대상에 대해 VM 유형별로 할당된 최대 집계 대역폭입니다. 자세한 내용은 가상 머신 네트워크 대역폭 참조
상한은 보장되지 않습니다. 제한은 원하는 애플리케이션에 적합한 VM 유형을 선택하기 위한 지침을 제공합니다. 실제 네트워크 성능은 네트워크 정체, 애플리케이션 로드 및 네트워크 설정을 비롯한 여러 요인에 따라 달라집니다. 네트워크 처리량 최적화에 대한 정보는 Azure 가상 머신에 대한 네트워크 처리량 최적화를 참조하세요.
Linux 또는 Windows에서 예상되는 네트워크 성능을 달성하려면 특정 버전을 선택하거나 VM을 최적화해야 할 수도 있습니다. 자세한 내용은 대역폭/처리량 테스트(NTTTCP)를 참조하세요.
Azure HPC는 최고의 애플리케이션 성능, 스케일링 기능 및 가치를 제공하기 위해 최첨단 프로세서와 HPC급 InfiniBand 상호 연결을 사용하는 HPC 및 AI 워크로드용으로 특화된 클라우드 기능입니다. 사용자는 Azure HPC를 사용하여 비즈니스 및 기술 요구 사항이 달라질 때 동적으로 할당될 수 있는 고가용성의 HPC 및 AI 기술을 통해 뛰어난 혁신, 생산성 및 비즈니스 민첩성을 얻을 수 있습니다. 이 학습 경로는 Azure HPC에서 시작하는 데 도움이 되는 모듈 시리즈입니다. 가장 관심 있는 토픽을 선택하거나 하나씩 진행할 수 있습니다.