다음을 통해 공유


Azure Stack Hub의 GPU(그래픽 처리 장치) VM(가상 머신)

이 문서에서는 Azure Stack Hub 통합 시스템에서 지원되는 GPU(그래픽 처리 장치) 모델을 설명합니다. 이 문서에는 GPU와 함께 사용되는 드라이버를 설치하는 방법에 대한 지침도 포함되어 있습니다. Azure Stack Hub의 GPU 지원을 통해 인공 지능, 학습, 유추 및 데이터 시각화와 같은 솔루션을 사용할 수 있습니다. AMD Radeon Instinct MI25는 Autodesk AutoCAD 같은 그래픽 집약적 애플리케이션을 지원하는 데 사용할 수 있습니다.

세 가지 GPU 모델 중에서 선택할 수 있습니다. NVIDIA V100, NVIDIA T4 및 AMD MI25 GPU에서 사용할 수 있습니다. 이러한 물리적 GPU는 다음과 같이 다음 Azure N 시리즈 VM(가상 머신) 유형에 맞춥니다.

Warning

GPU VM은 이 릴리스에서 지원되지 않습니다. Azure Stack Hub 2005 이상으로 업그레이드해야 합니다. 또한 Azure Stack Hub 하드웨어에는 물리적 GPU가 있어야 합니다.

NCv3

NCv3 시리즈 VM은 NVIDIA Tesla V100 GPU로 구동됩니다. 고객은 저수지 모델링, DNA 배열, 단백질 분석, 몬테카를로 시뮬레이션 등 기존 HPC 워크로드에 이러한 업데이트된 GPU를 활용할 수 있습니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

NVv4 시리즈 가상 머신은 AMD Radeon Instinc MI25 GPU를 통해 구동됩니다. NVv4 시리즈를 통해 Azure Stack Hub는 부분 GPU가 있는 가상 머신을 소개합니다. 이 크기는 GPU 가속 그래픽 애플리케이션 및 가상 데스크톱에 사용할 수 있습니다. NVv4 가상 머신은 현재 Windows 게스트 운영 체제만 지원합니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

크기 vCPU 메모리: GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

NC_A100 시리즈 VM은 Tesla V100 GPU의 후속인 NVIDIA Ampere A100 GPU를 통해 구동됩니다. 저수지 모델링, DNA 시퀀싱, 단백질 분석, 몬테카를로 시뮬레이션 등과 같은 기존 HPC 워크로드에 대해 이러한 업데이트된 GPU를 활용할 수 있습니다.

크기 vCPU 메모리: GiB 임시 스토리지(GiB) 최대 데이터 디스크 수 GPU GPU 메모리 GiB 최대 NIC 수
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

NC_L40S v4

크기 vCPU 메모리: GiB 임시 스토리지(GiB) 최대 데이터 디스크 수 GPU GPU 메모리 GiB 최대 NIC 수
Standard_NC24ads_L40S_v4 24 220 1123 8 1 80 2
Standard_NC48ads_L40S_v4 48 440 2246 16 2 160 4

GPU 시스템 고려 사항

  • GPU는 AMD MI-25, Nvidia V100(및 변형), Nvidia T4와 같은 SKU 중 하나여야 합니다.
  • 지원되는 서버당 GPU 수(1, 2, 3, 4). 기본 설정: 1, 2, 4.
  • 모든 GPU는 배율 단위 전체에서 정확히 동일한 SKU여야 합니다.
  • 서버당 모든 GPU 수량은 배율 단위 전체에서 동일해야 합니다.
  • GPU 파티션 크기(AMD Mi25의 경우)는 배율 단위의 모든 GPU VM에서 동일해야 합니다.

용량 계획

Azure Stack Hub Capacity Planner는 GPU 구성을 지원하도록 업데이트되었습니다. 여기에서 액세스할 수 있습니다.

기존 Azure Stack Hub에 GPU 추가

이제 Azure Stack Hub는 기존 시스템에 GPU 추가를 지원합니다. GPU를 추가하려면 실행하고 stop-azurestack, 프로시저 stop-azurestack를 실행하고, GPU를 추가한 다음, 완료될 때까지 실행 start-azurestack 합니다. 시스템에 이미 GPU가 있는 경우 이전에 만든 GPU VM을 다시 시작해야 합니다 stop-deallocated .

VM의 패치 및 업데이트, FRU 동작

GPU VM은 PnU(패치 및 업데이트) 및 Azure Stack Hub의 FRU(하드웨어 교체)와 같은 작업 중에 가동 중지 시간을 겪습니다. 다음 표에서는 이러한 작업 중에 관찰된 VM의 상태와 작업 후 이러한 VM을 사용할 수 있도록 하기 위해 수행할 수 있는 수동 작업에 대해 설명합니다.

연산 PnU - 전체 업데이트, OEM 업데이트 FRU
VM 상태 업데이트 도중 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. VM은 업데이트 후 자동으로 온라인 상태가됩니다. FRU 중에 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. FRU 후 VM을 다시 가져와야 합니다.
수동 작업 업데이트 중에 VM을 사용할 수 있어야 하는 경우 사용 가능한 GPU 파티션이 있는 경우 다시 시작 단추를 클릭하여 포털에서 VM을 다시 시작할 수 있습니다. VM은 업데이트 후 자동으로 백업됩니다. VM은 FRU 중에 사용할 수 없습니다. 사용 가능한 GPU가 있는 경우 VM은 FRU 중에 중지 할당 취소되고 다시 시작될 수 있습니다. FRU 완료 후 VM은 중지 단추를 사용한 다음 시작 단추를 사용하여 다시 시작해야 합니다stop-deallocated.

게스트 드라이버 설치

드라이버 설치에 사용할 수 있는 PowerShell cmdlet은 다음과 같습니다.

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

AZURE Stack Hub GPU VM의 OS, 유형 및 연결에 따라 이러한 값을 아래 설정으로 바꿔야 합니다.

AMD MI25

게스트 드라이버 버전은 연결 상태에 관계없이 Azure Stack Hub 버전과 일치해야 합니다. Azure Stack Hub 버전에 맞지 않는 최신 버전을 사용하면 유용성 문제가 발생할 수 있습니다.

Azure Stack Hub 버전 AMD 게스트 드라이버
2206 이상 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

연결됨

이전 섹션의 PowerShell 스크립트를 AMD에 적절한 드라이버 유형으로 사용합니다. Windows를 실행하는 N 시리즈 VM에 AMD GPU 드라이버 설치 문서에서는 드라이버 설치를 확인하는 방법에 대한 단계와 함께 NVv4 GPU-P 사용 VM 내에 AMD Radeon Instinct MI25용 드라이버를 설치하는 방법에 대한 지침을 제공합니다.

연결 끊김

확장은 인터넷의 위치에서 드라이버를 끌어오기 때문에 외부 네트워크에서 연결이 끊어진 VM은 액세스할 수 없습니다. 이전 테이블에서 드라이버를 다운로드하고 VM에 액세스할 수 있는 로컬 네트워크의 스토리지 계정에 업로드할 수 있습니다.

스토리지 계정에 AMD 드라이버를 추가하고 해당 계정의 URL을 지정합니다 Settings. 이러한 설정은 Set-AzureRMVMExtension cmdlet에서 사용해야 합니다. 예시:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

GPU를 사용하는 CUDA 또는 GRID 워크로드의 경우 가상 머신 내에 NVIDIA 드라이버를 설치해야 합니다.

사용 사례: 그래픽/시각화 GRID

이 시나리오에서는 GRID 드라이버를 사용해야 합니다. 필요한 라이선스가 있는 경우 NVIDIA 애플리케이션 허브를 통해 GRID 드라이버를 다운로드할 수 있습니다. 또한 GRID 드라이버는 VM에서 GRID 드라이버를 사용하기 전에 적절한 GRID 라이선스가 있는 GRID 라이선스 서버가 필요합니다.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

사용 사례: compute/CUDA - 연결됨

CUDA 드라이버는 라이선스 서버가 필요하지 않으며 수정된 설정이 필요하지 않습니다.

사용 사례: compute/CUDA - 연결 끊김

NVIDIA CUDA 드라이버에 대한 링크는 다음 링크를 사용하여 가져올 수 있습니다. https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

설정에 대한 일부 URL을 참조해야 합니다.

URL 주의
PUBKEY_URL PUBKEY_URL Linux VM이 아닌 Nvidia 드라이버 리포지토리의 공개 키입니다. Ubuntu용 드라이버를 설치하는 데 사용됩니다.
DRIVER_URL DRIVER_URL Nvidia 드라이버의 리포지토리 정보를 다운로드하는 URL이며 Linux VM의 리포지토리 목록에 추가됩니다.

설정에 URL을 추가합니다.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

다음 단계