GPU 분할을 사용하면 여러 가상 머신 (VMs)과 물리적 GPU 디바이스를 공유할 수 있습니다. GPU 분할 또는 GPU 가상화를 사용하면 각 VM은 전체 GPU 대신 GPU의 전용 부분을 가져옵니다.
GPU 분할 기능은 각 VM에 대해 예측 가능한 성능으로 하드웨어 지원 보안 경계를 제공하는 단일 루트 IO 가상화 (SR-IOV) 인터페이스 를 사용합니다. 각 VM은 전용 GPU 리소스에만 액세스할 수 있으며 보안 하드웨어 분할은 다른 VM의 무단 액세스를 방지합니다.
Windows Server 2025부터는 GPU 분할을 통해 실시간 마이그레이션이 지원되므로 가상 머신을 보다 유연하게 관리할 수 있습니다. GPU 분할을 사용하여 실시간 마이그레이션을 활용하려면 설치 프로그램이 이 문서에 설명된 요구 사항을 충족하는지 확인합니다. 실시간 마이그레이션을 사용하면 가동 중지 시간 없이 호스트 간에 VM을 이동할 수 있습니다. 이는 프로덕션 환경에서 유지 관리 및 부하 분산에 필수적입니다.
이 기능을 사용하면 GPU 리소스 할당을 유지하면서 계획된 VM 마이그레이션을 허용하여 가동 중지 시간을 최소화하고 일관된 성능을 보장합니다.
GPU 분할은 독립 실행형 서버를 위해 설계되었습니다. 계획된 가동 중지 시간을 위해 독립 실행형 노드 간에 VM을 실시간 마이그레이션할 수 있습니다. 그러나 계획되지 않은 가동 중지 시간을 위해 클러스터링이 필요한 고객의 경우 Windows Server 2025 Datacenter를 사용해야 합니다.
GPU 분할을 사용하는 경우
가상 데스크톱 인프라 (VDI), 인공 지능 (AI) 및 머신 러닝 (ML) 추론과 같은 일부 워크로드는 GPU 가속이 필요하며, GPU 분할은 전체 인프라에 대한 총 소유 비용을 줄이는 데 도움이 될 수 있습니다.
다음은 그 예입니다.
VDI 애플리케이션: 분산 에지 고객은 GPU 가속이 필요한 VDI 환경에서 Microsoft Office 및 그래픽이 많은 시각화 워크로드와 같은 기본 생산성 앱을 실행합니다. 이러한 워크로드의 경우 DDA 또는 GPU 분할을 통해 필요한 GPU 가속을 달성할 수 있습니다. GPU 분할을 사용하면 여러 파티션을 만들고 각 파티션을 VDI 환경을 호스팅하는 VM에 할당할 수 있습니다. GPU 분할을 사용하면 원하는 밀도를 달성하고 지원되는 사용자 수를 크기 순으로 조정할 수 있습니다.
ML 유추: 소매점 및 제조 공장의 고객은 에지에서 유추를 실행할 수 있으므로 서버에 대한 GPU 지원이 필요합니다. 서버에서 GPU를 사용하여 ML 모델을 실행하여 데이터가 클라우드로 전송되기 전에 수행할 수 있는 빠른 결과를 얻을 수 있습니다. ML 모델을 계속 다시 학습시키고 개선할 수 있도록 필요에 따라 전체 데이터 집합을 전송할 수 있습니다. 전체 물리적 GPU를 VM에 바치는 DDA와 함께 GPU 분할을 사용하면 동일한 GPU에서 동시에 여러 유추 애플리케이션을 실행할 수 있지만 별도의 하드웨어 파티션에서 GPU 사용률을 최대화할 수 있습니다.
Requirements
실시간 마이그레이션과 함께 GPU 분할을 사용하려면 지원되는 CPU, 운영 체제 및 GPU가 있어야 합니다. 다음 섹션에서는 요구 사항을 설명합니다.
CPU 요구 사항
클러스터 호스트에는 IOMMU(Input/Output Memory Management Unit) DMA 비트 추적 가능 프로세서가 있어야 합니다. 예를 들어 Intel VT-D 또는 AMD-Vi를 지원하는 프로세서입니다. IOMMU 사용 프로세서 없이 Windows Server 및 실시간 마이그레이션을 사용할 경우, GPU 리소스를 사용할 수 있는 경우 VM이 자동으로 다시 시작됩니다.
IOMMU DMA 비트 추적을 지원하는 프로세서의 예는 다음과 같습니다.
- AMD EPYC 7002 이상(밀라노)
- 4세대 Intel Xeon SP(사파이어 래피즈)
지원되는 게스트 운영 체제
Windows Server 2025 이상에서 GPU 분할은 다음과 같은 게스트 운영 체제를 지원합니다.
- Windows 10 이상
- Windows 10 엔터프라이즈 다중 세션 이상
- Windows Server 2019 이상
- Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS
지원되는 GPU
다음 GPU는 GPU 분할을 지원합니다.
- NVIDIA A2
- NVIDIA A10
- NVIDIA A16
- NVIDIA A40
- NVIDIA L2
- NVIDIA L4
- NVIDIA L40
- NVIDIA L40S
GPU 분할과 함께 실시간 마이그레이션을 사용하려면 NVIDIA vGPU Software v18.x 이상에 포함된 드라이버를 사용해야 합니다. NVIDIA 드라이버는 GPU 분할 및 실시간 마이그레이션 기능에 필요한 지원을 제공합니다.
OEM(Original Equipment Manufacturer) 파트너와 협력하여 워크로드에 맞는 시스템을 계획하고 주문하는 것이 좋습니다. 또한 GPU IHV(Independent Hardware Vendor)에 문의하여 설치에 적절한 구성과 필요한 소프트웨어가 있는지 확인합니다. 그러나 불연속 디바이스 할당 (DDA)를 통해 GPU 가속을 사용하려는 경우 더 많은 GPU를 지원합니다. OEM 파트너 및 IHV에 문의하여 DDA를 지원하는 GPU 목록을 가져옵니다. DDA를 통해 GPU 가속을 사용하는 방법에 대한 자세한 내용은 불연속 디바이스 할당 (DDA)를 참조하세요.
최상의 성능을 위해 클러스터의 모든 서버에서 GPU에 대한 동질적인 구성을 만드는 것이 좋습니다. 같은 유형의 구성은 GPU의 동일한 메이크 및 모델을 설치하고 클러스터의 모든 서버에서 GPU에서 동일한 파티션 수를 구성하는 것으로 구성됩니다. 예를 들어 하나 이상의 GPU가 설치된 두 서버의 클러스터에서 모든 GPU는 동일한 메이크, 모델 및 크기를 가져야 합니다. 각 GPU의 파티션 수도 일치해야 합니다.
Limitations
GPU 분할 기능을 사용하는 경우 다음과 같은 제한 사항을 고려합니다.
구성이 동질적이지 않으면 GPU 분할이 지원되지 않습니다. 다음은 지원되지 않는 구성의 몇 가지 예입니다.
동일한 클러스터의 여러 공급업체에서 GPU를 혼합합니다.
동일한 클러스터에 있는 동일한 공급업체의 여러 제품 제품군에서 다른 GPU 모델을 사용합니다.
실제 GPU를 불연속 디바이스 할당 (DDA) 또는 분할 가능한 GPU로 할당할 수 없습니다. DDA 또는 분할 가능한 GPU로 할당할 수 있지만 둘 다 할당할 수는 없습니다.
VM에 둘 이상의 GPU 파티션을 할당하면 각 파티션이 다른 GPU로 표시됩니다.
파티션은 VM에 자동으로 할당됩니다. 특정 VM에 대한 특정 파티션을 선택할 수 없습니다.
Windows Admin Center 또는 PowerShell을 사용하여 GPU를 분할할 수 있습니다. Windows Admin Center를 사용하여 GPU 파티션을 구성하고 할당하는 것이 좋습니다. Windows Admin Center는 클러스터의 모든 서버에서 GPU의 균일한 구성에 대해 자동으로 유효성을 검사합니다. 필요한 모든 수정 작업을 수행하는 데 적절한 경고 및 오류를 제공합니다.
PowerShell을 사용하여 GPU 분할을 사용하도록 설정하는 경우 클러스터의 각 서버에서 동일한 구성 단계를 수행해야 합니다. 클러스터의 모든 서버에서 GPU에 대해 균일한 구성이 유지 관리되는지 수동으로 확인해야 합니다.
GPU 파티션이 할당된 가상 머신을 실시간 마이그레이션하는 경우 Hyper-V 라이브 마이그레이션은 자동으로 압축과 함께 TCP/IP를 사용하는 것으로 돌아갑니다. 가상 머신을 마이그레이션하면 호스트의 CPU 사용률이 증가할 가능성이 있습니다. 또한 GPU 파티션이 연결되지 않은 가상 머신보다 실시간 마이그레이션이 더 오래 걸릴 수 있습니다.
관련 콘텐츠
VM 및 GPU 분할에서 GPU를 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.