Azure의 GPU 컴퓨팅 워크로드에 대한 마이그레이션 가이드

2025-05-06

마켓플레이스 및 Microsoft Azure 데이터 센터에서 더 강력한 GPU를 사용할 수 있게 됨에 따라 워크로드의 성능을 다시 평가하고 최신 GPU로 마이그레이션하는 것을 고려하는 것이 좋습니다.

동일한 이유로 Azure는 고품질의 신뢰할 수 있는 서비스 제공을 유지할 뿐만 아니라 이전 VM 크기를 지원하는 하드웨어를 주기적으로 사용 중지합니다. Azure에서 사용 중지되는 GPU 제품의 첫 번째 그룹은 각각 NVIDIA Tesla K80, P100 및 P40 데이터 센터 GPU 가속기를 통해 구동되는 원래 NC, NC v2 및 ND 시리즈 VM입니다. 이러한 제품은 2023년 8월 31일에 사용 중지되며, 이 시리즈에서 가장 오래된 VM은 2016년에 출시됩니다.

그 이후로 GPU는 전체 딥 러닝 및 HPC 산업과 함께 놀라운 진전을 이루었으며, 일반적으로 세대 간의 성능이 두 배로 증가했습니다. NVIDIA K80, P40 및 P100 GPU가 출시된 이후 Azure는 NVIDIA의 T4, V100 및 A100 GPU를 기반으로 GPU 가속 컴퓨팅 및 AI를 기반으로 하고 InfiniBand 기반 상호 연결 패브릭과 같은 선택적 기능으로 차별화된 여러 세대 및 범주의 VM 제품을 출시했습니다. 이러한 옵션은 고객이 마이그레이션 경로로 탐색하도록 권장하는 모든 옵션입니다.

대부분의 경우 GPU의 최신 세대에서 제공하는 성능의 급격한 증가는 GPU 시간당 비용이 다를 수 있더라도 버스트 가능한 작업의 경우 작업 기간을 줄이거나 컴퓨팅 리소스에 대한 고정 크기 수요를 충당하는 데 필요한 전체 GPU 지원 VM의 양을 줄임으로써 전체 TCO를 낮춥니다. 이러한 이점 외에도 고객은 고성능 VM을 통해 솔루션 시간을 개선하고 최신 소프트웨어, CUDA 런타임 및 드라이버 버전을 채택하여 솔루션의 상태 및 지원 가능성을 향상시킬 수 있습니다.

마이그레이션 및 최적화

Azure는 고객이 GPU 아키텍처 고려 사항, 상호 연결, TCO, 솔루션 간 시간 및 규정 준수 지역 또는 대기 시간 요구 사항에 따른 지역 가용성을 포함하여 특정 GPU VM 제품 선택을 지시할 수 있는 다양한 요구 사항을 가지고 있음을 인식하고 있으며, 이러한 중 일부는 시간에 따라 변경됩니다.

동시에 GPU 가속은 새롭고 빠르게 진화하는 영역입니다.

따라서 이 제품 영역에 대한 진정한 한 가지 크기에 맞는 지침은 없으며, 마이그레이션은 클러스터형 배포 모델에서 단일 대형 8-GPU VM으로 또는 그 반대로 이동하는 것과 같이 워크로드에 대한 잠재적으로 극적인 변화를 다시 평가할 수 있는 완벽한 시기이며, 감소된 전체 자릿수 데이터 형식을 활용하고 다중 인스턴스 GPU와 같은 기능을 채택하는 등 훨씬 더 적합합니다.

이러한 종류의 고려 사항 - 이미 극적인 세대별 GPU 성능 향상의 컨텍스트를 만들 때 TensorCores 추가와 같은 기능이 성능을 크게 높일 수 있는 경우 워크로드별로 매우 다릅니다.

마이그레이션을 애플리케이션 재 아키텍처와 결합하면 엄청난 가치와 비용 및 솔루션 시간 향상을 얻을 수 있습니다.

그러나 이러한 종류의 개선 사항은 현재 고객이 실행할 수 있는 일반화된 워크로드에 대한 직접 동등성 클래스에 중점을 두고 사용 중지 중인 기존 VM 제품군과 GPU당 가격 및 성능 모두에서 가장 유사한 VM 옵션을 식별하는 것을 목표로 하는 이 문서의 범위를 벗어던집니다.

따라서 이 문서에서는 사용자에게 필요한 VM 인스턴스 수, GPU, 상호 연결 등과 같은 워크로드별 속성에 대한 인사이트나 제어가 없을 수 있다고 가정합니다.

권장 업그레이드 경로

NC-Series NVIDIA K80 GPU가 장착된 가상 머신

NC(v1) 시리즈 VM은 Intel Xeon E5-2690 v3(Haswell) 프로세서와 쌍을 이루는 1~4개의 NVIDIA Tesla K80 데이터 센터 GPU 가속기를 지원하는 Azure에서 가장 오래된 GPU 가속 컴퓨팅 VM 유형입니다. 한때 까다로운 AI, ML 및 HPC 애플리케이션을 위한 주력 VM 유형이었던 이 VM은 제품 수명 주기의 후기 동안 여전히 인기 있는 선택이었습니다. 이는 특히 NC 시리즈의 프로모션 가격을 통해 GPU당 처리량보다 GPU 시간당 절대 비용이 매우 낮은 것을 중시하는 사용자들에게 선호되었습니다.

현재 노후화된 NVIDIA K80 GPU 플랫폼의 컴퓨팅 성능이 비교적 낮기 때문에 최신 GPU가 포함된 VM 시리즈에 비해 NC 시리즈의 인기 있는 사용 사례는 실시간 유추 및 분석 워크로드이며, 가속화된 VM을 안정적인 상태로 사용하여 애플리케이션이 도착할 때 요청을 처리해야 합니다. 이러한 경우 요청의 볼륨 또는 일괄 처리 크기가 더 성능이 좋은 GPU를 활용하기에 충분하지 않을 수 있습니다. 또한 NC VM은 프로덕션 수준으로 수행할 필요가 없는 반복할 저렴한 클라우드 기반 CUDA 배포 대상이 필요한 GPU 가속에 대해 학습, 개발 또는 실험하는 개발자와 학생들에게도 인기가 있습니다.

일반적으로 NC-Series 고객은 NVIDIA Tesla T4 GPU 로 구동되는 가벼운 워크로드를 위한 Azure의 새로운 GPU 가속 플랫폼인 NC 크기에서 NC T4 v3 크기로 직접 이동하는 것을 고려해야 합니다.

현재 VM 크기	대상 VM 크기	사양의 차이
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 또는 Standard_NC8as_T4	CPU: Intel Haswell vs AMD Rome GPU 수: 1(동일) GPU 생성: NVIDIA Keppler 및 튜링(+2세대, ~2x FP32 FLOP) GPU 메모리(GPU당 GiB): 16(+4) vCPU: 4(-2) 또는 8(+2) 메모리 GiB: 16(-40) 또는 56(동일) SSD(임시 스토리지) GiB: 180(-160) 또는 360(+20) 최대 데이터 디스크: 8(-4) 또는 16(+4) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell vs AMD Rome GPU 수: 1 (-1) GPU 세대: NVIDIA Kepler 및 튜링 (+2세대, ~2x FP32 FLOPs) GPU 메모리(GPU당 GiB): 16(+4) vCPU: 16 (+4) 메모리 GiB: 110(-2) SSD(임시 스토리지) GiB: 360(-320) 최대 데이터 디스크: 48개(+16) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU 수: 4(동일) GPU 세대: NVIDIA Kepler 대 튜링(+2세대, ~2배 FP32 FLOPS) GPU 메모리(GPU당 GiB): 16(+4) vCPU: 64 (+40) 메모리 GiB: 440(+216) SSD(임시 스토리지) GiB: 2880(+1440) 최대 데이터 디스크: 32(-32) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU 수: 4(동일) GPU 세대: NVIDIA Kepler 및 튜링(+2세대, ~2x FP32 FLOPs) GPU 메모리(GPU당 GiB): 16(+4) vCPU: 64 (+40) 메모리 GiB: 440(+216) SSD(임시 스토리지) GiB: 2880(+1440) 최대 데이터 디스크: 32(-32) 가속화된 네트워킹: 예(+) Premium Storage: 예(+) InfiniBand 상호 연결: 아니요

NVIDIA Tesla P100 GPU를 갖춘 NC v2 시리즈 VM

NC v2 시리즈 가상 머신은 원래 AI 및 딥 러닝 워크로드용으로 설계된 주력 플랫폼입니다. 딥 러닝 학습에 뛰어난 성능을 제공했으며, GPU당 성능은 원래 NC-Series 약 2배에 달하며 NVIDIA Tesla P100 GPU 및 Intel Xeon E5-2690 v4(Broadwell) CPU로 구동됩니다. NC 및 ND 시리즈와 마찬가지로 NC v2 시리즈는 RDMA를 통한 보조 대기 시간이 짧고 처리량이 높은 네트워크 및 InfiniBand 연결을 사용하여 구성을 제공하므로 많은 GPU에 걸친 대규모 학습 작업을 실행할 수 있습니다.

일반적으로 NCv2-Series 고객은 NVIDIA Ampere A100 PCIe GPU를 통해 구동되는 Azure의 새로운 GPU 가속 플랫폼인 NC A100 v4 크기로 직접 이동하는 것을 고려해야 합니다.

현재 VM 크기	대상 VM 크기	사양의 차이
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell 대 AMD Milan GPU 수: 1(동일) GPU 생성: NVIDIA Pascal 및 Ampere(+2세대) GPU 메모리(GPU당 GiB): 80(+64) vCPU: 24 (+18) 메모리 GiB: 220(+108) SSD(임시 스토리지) GiB: 1123(+387) 최대 데이터 디스크: 12개(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU 수: 2(동일) GPU 생성: NVIDIA 파스칼 및 앰페어(+2세대) GPU 메모리(GPU당 GiB): 80(+64) vCPU: 48 (+36) 메모리 GiB: 440(+216) SSD(임시 스토리지) GiB: 2246(+772) 최대 데이터 디스크: 24(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell 대 AMD Milan GPU 수: 4(동일) GPU 생성: NVIDIA 파스칼 및 앰페어(+2세대) GPU 메모리(GPU당 GiB): 80(+64) vCPU: 96 (+72) 메모리 GiB: 880(+432) SSD(임시 스토리지) GiB: 4492(+1544) 최대 데이터 디스크: 32(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU 수: 4(동일) GPU 생성: NVIDIA 파스칼 및 앰페어(+2세대) GPU 메모리(GPU당 GiB): 80(+64) vCPU: 96 (+72) 메모리 GiB: 880(+432) SSD(임시 스토리지) GiB: 4492(+1544) 최대 데이터 디스크: 32(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+) InfiniBand 상호 연결: 아니요(-)

NVIDIA Tesla P40 GPU를 갖춘 ND-Series VM

ND 시리즈 가상 머신은 원래 AI 및 딥 러닝 워크로드용으로 설계된 미드레인지 플랫폼입니다. 이전 버전보다 향상된 단정밀도 부동 소수점 연산을 통해 일괄 처리 유추에 뛰어난 성능을 제공했으며 NVIDIA Tesla P40 GPU 및 Intel Xeon E5-2690 v4(Broadwell) CPU로 구동됩니다. NC 및 NC v2 시리즈와 마찬가지로 이 ND-Series RDMA를 통해 보조 대기 시간이 짧고 처리량이 높은 네트워크 및 InfiniBand 연결을 사용하여 구성을 제공하므로 많은 GPU에 걸친 대규모 학습 작업을 실행할 수 있습니다.

현재 VM 크기	대상 VM 크기	사양의 차이
Standard_ND6	Standard_NC4as_T4_v3 또는 Standard_NC8as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU 수: 1(동일) GPU 생성: NVIDIA 파스칼 및 튜링(+1세대) GPU 메모리(GPU당 GiB): 16(-8) vCPU: 4(-2) 또는 8(+2) 메모리 GiB: 16(-40) 또는 56(-56) SSD(임시 스토리지) GiB: 180(-552) 또는 360(-372) 최대 데이터 디스크: 8(-4) 또는 16(+4) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU 수: 1 (-1) GPU 생성: NVIDIA 파스칼 및 튜링(+1세대) GPU 메모리(GPU당 GiB): 16(-8) vCPU: 16 (+4) 메모리 GiB: 110(-114) SSD(임시 스토리지) GiB: 360(-1,114) 최대 데이터 디스크: 48개(+16) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell vs AMD Rome GPU 수: 4(동일) GPU 생성: NVIDIA 파스칼 및 튜링(+1세대) GPU 메모리(GPU당 GiB): 16(-8) vCPU: 64 (+40) 메모리 GiB: 440(동일) SSD(임시 스토리지) GiB: 2880(동일) 최대 데이터 디스크: 32(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell vs AMD Rome GPU 수: 8(+4) GPU 생성: NVIDIA Pascal 및 Ampere(+2세대) GPU 메모리(GPU당 GiB): 80(+56) vCPU: 96 (+72) 메모리 GiB: 1900(+1452) SSD(임시 스토리지) GiB: 6400(+3452) 최대 데이터 디스크: 32(동일) 가속화된 네트워킹: 예(+) Premium Storage: 예(+) InfiniBand 상호 연결: 예(동일)

마이그레이션 단계

일반 변경 내용

마이그레이션할 계열 및 크기를 선택합니다. 추가 인사이트를 위해 가격 계산기를 활용합니다.
대상 VM 시리즈에 대한 할당량 가져오기
현재 N* 시리즈 VM 크기를 대상 크기로 조정합니다. Virtual Machine 이미지에서 사용하는 운영 체제를 업데이트하거나 드라이버가 시작점으로 미리 설치된 HPC 이미지 중 하나를 채택하는 것도 좋은 시기일 수 있습니다.

중요합니다

VM 이미지는 새 GPU VM 시리즈가 필요로 하는 것보다 이전 버전의 CUDA 런타임과 NVIDIA 드라이버로 생성되었을 수 있으며 (RDMA 사용 크기의 경우에 한해) Mellanox OFED 드라이버도 포함될 수 있습니다. 이는 Azure 문서의 지침을 따라 업데이트할 수 있습니다.

파괴적 변경

마이그레이션 대상 크기 선택

현재 사용량을 평가한 후 필요한 GPU VM 유형을 결정합니다. 워크로드 요구 사항에 따라 몇 가지 다른 옵션이 있습니다.

비고

가장 좋은 방법은 비용과 성능 모두에 따라 VM 크기를 선택하는 것입니다. 이 가이드의 권장 사항은 성능 메트릭의 범용 일대일 비교와 다른 VM 시리즈에서 가장 가까운 일치 항목을 기반으로 합니다. 적절한 크기를 결정하기 전에 Azure 가격 계산기를 사용하여 비용 비교를 가져옵니다.

중요합니다

모든 레거시 NC, NC v2 및 ND-Series 크기는 단일 4-GPU VM 또는 단일 K80, P40 또는 P100 GPU가 각각 제공할 수 있는 단일 K80, P40 또는 P100 GPU보다 더 많은 컴퓨팅 능력을 요구하는 확장, 긴밀하게 결합된 워크로드를 위한 InfiniBand 상호 연결이 있거나 없는 4-GPU 크기를 포함하여 다중 GPU 크기에서 사용할 수 있습니다. 위의 권장 사항은 앞으로 간단한 경로를 제공하지만, 이러한 크기의 사용자는 NC v3 시리즈 및 ND v2 시리즈와 같은 보다 강력한 NVIDIA V100 GPU 기반 VM 시리즈로 성능 목표를 달성하는 것을 고려해야 합니다. 이는 일반적으로 다중 GPU 및 다중 노드 구성이 필요하기 전에 GPU 및 VM당 훨씬 더 큰 성능을 제공하여 더 낮은 비용으로 동일한 수준의 워크로드 성능을 가능하게 하고 관리 효율성이 향상됩니다. 각각.

대상 VM 제품군에 대한 할당량 가져오기

가이드에 따라 VM 제품군에서 vCPU 할당량 증가를 요청합니다. 마이그레이션을 위해 선택한 대상 VM 크기를 선택합니다.

현재 가상 머신 크기 조정

가상 머신의 크기를 조정할 수 있습니다.

다음 단계

GPU 사용 가상 머신 크기의 전체 목록은 GPU - 가속 컴퓨팅 개요를 참조하세요.