Azure Stack Hub의 GPU(그래픽 처리 장치) VM(가상 머신)

이 문서에서는 Azure Stack Hub 통합 시스템에서 지원되는 GPU(그래픽 처리 장치) 모델에 대해 설명합니다. GPU에서 사용하는 드라이버를 설치하는 방법에 대한 지침을 찾을 수도 있습니다. Azure Stack Hub의 GPU 지원을 통해 인공 지능, 학습, 유추 및 데이터 시각화와 같은 솔루션을 사용할 수 있습니다. AMD Radeon Instinct MI25는 Autodesk AutoCAD 같은 그래픽 집약적 애플리케이션을 지원하는 데 사용할 수 있습니다.

세 가지 GPU 모델 중에서 선택할 수 있습니다. NVIDIA V100, NVIDIA T4 및 AMD MI25 GPU에서 사용할 수 있습니다. 이러한 물리적 GPU는 다음과 같이 다음과 같은 Azure N 시리즈 VM(가상 머신) 유형과 일치합니다.

경고

GPU VM은 이 릴리스에서 지원되지 않습니다. Azure Stack Hub 2005 이상으로 업그레이드해야 합니다. 또한 Azure Stack Hub 하드웨어에는 물리적 GPU가 있어야 합니다.

NCv3

NCv3 시리즈 VM은 NVIDIA Tesla V100 GPU로 구동됩니다. 고객은 저수지 모델링, DNA 배열, 단백질 분석, 몬테카를로 시뮬레이션 등 기존 HPC 워크로드에 이러한 업데이트된 GPU를 활용할 수 있습니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

NVv4 시리즈 가상 머신은 AMD Radeon Instinc MI25 GPU를 통해 구동됩니다. NVv4 시리즈의 경우 Azure Stack Hub에서 부분 GPU가 있는 가상 머신을 도입하고 있습니다. 이 크기는 GPU 가속 그래픽 애플리케이션 및 가상 데스크톱에 사용할 수 있습니다. NVv4 가상 머신은 현재 Windows 게스트 운영 체제만 지원합니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

크기 vCPU 메모리: GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

v4 NC_A100

NC_A100 시리즈 VM은 Tesla V100 GPU의 후속 모델인 NVIDIA Ampere A100 GPU를 통해 구동됩니다. 저수지 모델링, DNA 시퀀싱, 단백질 분석, 몬테카를로 시뮬레이션 등과 같은 기존 HPC 워크로드에 대해 이러한 업데이트된 GPU를 활용할 수 있습니다.

크기 vCPU 메모리: GiB 임시 스토리지(GiB) 최대 데이터 디스크 수 GPU GPU 메모리 GiB 최대 NIC 수
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

GPU 시스템 고려 사항

  • GPU는 AMD MI-25, Nvidia V100(및 변형), Nvidia T4 중 하나여야 합니다.
  • 지원되는 서버당 GPU 수(1, 2, 3, 4). 기본 설정은 1, 2 및 4입니다.
  • 모든 GPU는 배율 단위 전체에서 정확히 동일한 SKU여야 합니다.
  • 서버당 모든 GPU 수량은 배율 단위 전체에서 동일해야 합니다.
  • GPU 파티션 크기(AMD Mi25의 경우)는 배율 단위의 모든 GPU VM에서 동일해야 합니다.

용량 계획

Azure Stack Hub capacity Planner가 GPU 구성을 지원하도록 업데이트되었습니다. 에서 액세스할 수 있습니다 https://aka.ms/azstackcapacityplanner.

기존 Azure Stack Hub에 GPU 추가

이제 Azure Stack Hub는 모든 기존 시스템에 GPU 추가를 지원합니다. 이렇게 하려면 stop-azurestack을 실행하고, stop-azurestack 절차를 실행하고, GPU를 추가한 다음, 완료될 때까지 start-azurestack 을 실행합니다. 시스템에 이미 GPU가 있는 경우 이전에 만든 GPU VM을 중지 할당 취소한 다음 다시 시작해야 합니다.

패치 및 업데이트, VM의 FRU 동작

GPU VM은 PnU(패치 및 업데이트) 및 Azure Stack Hub의 FRU(하드웨어 교체)와 같은 작업 중에 가동 중지 시간이 발생합니다. 다음 표에서는 이러한 작업 중에 관찰된 VM의 상태와 작업 후 이러한 VM을 사용할 수 있도록 하기 위해 수행할 수 있는 수동 작업에 대해 설명합니다.

작업 PnU - 전체 업데이트, OEM 업데이트 FRU
VM 상태 업데이트 도중 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. VM은 업데이트 후 자동으로 온라인 상태가 될 수 있습니다. FRU 중에 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. VM은 FRU 후에 다시 가져와야 합니다.
수동 작업 업데이트 중에 VM을 사용할 수 있어야 하는 경우 사용 가능한 GPU 파티션이 있는 경우 다시 시작 단추를 클릭하여 포털에서 VM을 다시 시작할 수 있습니다. 업데이트 후 VM이 자동으로 백업됩니다. VM은 FRU 중에 사용할 수 없습니다. 사용 가능한 GPU가 있는 경우 VM이 FRU 중에 중지 할당 취소되고 다시 시작될 수 있습니다. FRU 완료 후 중지 단추를 사용하여 VM의 할당을 중지하고 시작 단추를 사용하여 다시 시작해야 합니다.

게스트 드라이버 설치

드라이버 설치에 사용할 수 있는 PowerShell cmdlet은 다음과 같습니다.

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

OS, Azure Stack Hub GPU VM의 유형 및 연결에 따라 아래 설정을 사용하여 수정해야 합니다.

AMD MI25

게스트 드라이버 버전은 연결 상태에 관계없이 Azure Stack Hub 버전과 일치해야 합니다. Azure Stack Hub 버전에 맞지 않는 최신 버전을 사용하면 유용성 문제가 발생할 수 있습니다.

Azure Stack Hub 버전 AMD 게스트 드라이버
2206 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

연결됨

이전 섹션의 PowerShell 스크립트를 AMD에 적절한 드라이버 유형으로 사용합니다. Windows를 실행하는 N 시리즈 VM에 AMD GPU 드라이버 설치 문서에서는 NVv4 GPU-P 지원 VM 내에 AMD Radeon Instinct MI25용 드라이버를 설치하는 방법과 드라이버 설치를 확인하는 방법에 대한 단계를 제공합니다.

연결 끊김

확장은 인터넷의 위치에서 드라이버를 끌어오기 때문에 외부 네트워크에서 연결이 끊어진 VM에 액세스할 수 없습니다. 이전 테이블에서 드라이버를 다운로드하고 VM에서 액세스할 수 있는 로컬 네트워크의 스토리지 계정에 업로드할 수 있습니다.

스토리지 계정에 AMD 드라이버를 추가하고 의 Settings해당 계정에 대한 URL을 지정합니다. 이러한 설정은 Set-AzureRMVMExtension cmdlet에서 사용해야 합니다. 예를 들면 다음과 같습니다.

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

NVIDIA 드라이버는 GPU를 사용하는 CUDA 또는 GRID 워크로드용 가상 머신 내에 설치해야 합니다.

사용 사례: 그래픽/시각화 GRID

이 시나리오에서는 GRID 드라이버를 사용해야 합니다. 필요한 라이선스가 있는 경우 GRID 드라이버는 NVIDIA 애플리케이션 허브를 통해 다운로드할 수 있습니다. 또한 GRID 드라이버는 VM에서 GRID 드라이버를 사용하기 전에 적절한 GRID 라이선스가 있는 GRID 라이선스 서버가 필요합니다.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

사용 사례: compute/CUDA - 연결됨

CUDA 드라이버는 라이선스 서버가 필요하지 않으며 수정된 설정이 필요하지 않습니다.

사용 사례: compute/CUDA - 연결이 끊김

링크를 사용하여 NVIDIA CUDA 드라이버에 대한 링크를 가져올 수 있습니다. https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

설정에 대한 일부 URL을 참조해야 합니다.

URL 참고
PUBKEY_URL PUBKEY_URL Linux VM이 아닌 Nvidia 드라이버 리포지토리의 공개 키입니다. Ubuntu용 드라이버를 설치하는 데 사용됩니다.
DKMS_URL DKMS_URL RedHat/CentOs에서 Nvidia 커널 모듈을 컴파일하는 패키지를 가져오는 데 사용됩니다.
DRIVER_URL DRIVER_URL Nvidia 드라이버의 리포지토리 정보를 다운로드하는 URL이며 Linux VM의 리포지토리 목록에 추가됩니다.
LIS_URL LIS_URL RedHat/CentOs용 Linux Integration Service 패키지를 다운로드하는 URL이며, Hyper-V용 Linux Integration Services v4.3 및 Azure 는 기본적으로 설치 https://www.microsoft.com/download/details.aspx?id=55106 되지 않습니다. LIS_RHEL_ver Nvidia 드라이버와 함께 작동해야 하는 대체 커널 버전입니다. Linux VM의 커널이 요청된 Nvidia 드라이버와 호환되지 않는 경우 RedHat/CentOs에서 사용됩니다.

설정에 URL을 추가합니다.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

다음 단계