Mesin virtual (VM) unit pemroses grafis (GPU) di Azure Stack Hub

Perhatian

Artikel ini mereferensikan CentOS, distribusi Linux yang mendekati status End Of Life (EOL). Harap pertimbangkan penggunaan dan rencanakan yang sesuai. Untuk informasi selengkapnya, lihat panduan Akhir Masa Pakai CentOS.

Artikel ini menjelaskan model unit pemrosesan grafis (GPU) mana yang didukung pada sistem terintegrasi Azure Stack Hub. Anda juga dapat menemukan petunjuk untuk menginstal driver yang digunakan dengan GPU. Dukungan GPU di Azure Stack Hub memungkinkan solusi seperti AI, pelatihan, inferensi, dan visualisasi data. AMD Radeon Instinct MI25 dapat digunakan untuk mendukung aplikasi intensif grafis seperti Autodesk AutoCAD.

Anda dapat memilih dari tiga model GPU. GPU tersebut meliputi GPU NVIDIA V100, NVIDIA T4, dan AMD MI25. GPU fisik ini selaras dengan jenis mesin virtual (VM) Azure N-Series berikut ini:

Peringatan

GPU VM tidak didukung dalam rilis ini. Anda harus meningkatkan ke Azure Stack Hub 2005 atau yang terbaru. Selain itu, perangkat keras Azure Stack Hub Anda harus memiliki GPU fisik.

NCv3

VM seri NCv3 didukung oleh GPU NVIDIA Tesla V100. Pelanggan dapat memanfaatkan GPU yang diperbarui ini untuk beban kerja HPC tradisional seperti pemodelan reservoir, pengurutan DNA, analisis protein, simulasi Monte Carlo, dan lainnya.

Ukuran vCPU Memori: GiB Penyimpanan sementara (SSD) GiB GPU Memori GPU: GiB Disk data maksimal NIC Maksimal
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Mesin virtual seri NVv4 didukung oleh GPU AMD Radeon Instinct MI25. Dengan seri NVv4 Azure Stack Hub memperkenalkan mesin virtual dengan GPU parsial. Ukuran ini dapat digunakan untuk aplikasi grafis akselerasi GPU dan desktop virtual. Komputer virtual NVv4 saat ini hanya mendukung sistem operasi tamu Windows.

Ukuran vCPU Memori: GiB Penyimpanan sementara (SSD) GiB GPU Memori GPU: GiB Disk data maksimal NIC Maksimal
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Ukuran vCPU Memori: GiB GPU Memori GPU: GiB Disk data maksimal NIC Maksimal
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

VM seri NC_A100 didukung oleh GPU NVIDIA Ampere A100, penerus GPU Tesla V100. Anda dapat memanfaatkan GPU yang diperbarui ini untuk beban kerja HPC tradisional seperti pemodelan reservoir, pengurutan DNA, analisis protein, simulasi Monte Carlo, dan lainnya.

Ukuran vCPU Memori: GiB Penyimpanan sementara (GiB) Disk data maksimal GPU GiB memori GPU NIC Maksimal
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

Pertimbangan sistem GPU

  • GPU harus menjadi salah satu SKU ini: AMD MI-25, Nvidia V100 (dan varian), Nvidia T4.
  • Jumlah GPU per server yang didukung (1, 2, 3, 4). Yang dipilih adalah: 1, 2, dan 4.
  • Semua GPU harus memiliki SKU yang sama persis di seluruh unit skala.
  • Semua jumlah GPU per server harus sama di seluruh unit skala.
  • Ukuran partisi GPU (untuk AMD Mi25) harus sama di seluruh VM GPU pada unit skala.

Perencanaan Kapasitas

Perencana kapasitas Azure Stack Hub telah diperbarui untuk mendukung konfigurasi GPU. Ini dapat diakses pada https://aka.ms/azstackcapacityplanner.

Menambahkan GPU pada Azure Stack Hub yang sudah ada

Saat ini Azure Stack Hub mendukung penambahan GPU ke sistem yang ada. Untuk melakukan ini, jalankan stop-azurestack, jalankan melalui prosedur stop-azurestack, tambahkan GPU, kemudian jalankan start-azurestack hingga selesai. Jika sistem sudah memiliki GPU, VM GPU yang dibuat sebelumnya harus dihentikan alokasinya, kemudian dihidupkan ulang.

Patch dan update, perilaku FRU VM

VM GPU akan mengalami downtime selama operasi seperti patch dan update (PnU) dan penggantian perangkat keras (FRU) dari Azure Stack Hub. Tabel berikut mencakup kondisi VM seperti yang diamati selama aktivitas ini dan tindakan manual yang dapat Anda lakukan untuk membuat VM ini tersedia setelah operasi.

Operasi PnU - Pembaruan Penuh, pembaruan OEM FRU
Status VM Tidak tersedia selama pembaruan. Dapat dibuat tersedia dengan operasi manual. VM secara otomatis memperbarui posting online. Tidak tersedia selama FRU. Dapat dibuat tersedia dengan operasi manual. VM perlu dibawa kembali setelah FRU
Operasi manual Jika VM perlu tersedia selama pembaruan, jika ada partisi GPU yang tersedia, VM dapat dihidupkan ulang dari portal dengan mengeklik tombol Hidupkan ulang. VM akan secara otomatis kembali memperbarui posting VM tidak tersedia selama FRU. Jika ada GPU yang tersedia, VM dapat dialokasikan dan dihidupkan ulang selama FRU. Setelah FRU selesai, VM perlu dihentikan alokasinya menggunakan tombol Stop dan mulai mencadangkan menggunakan tombol Mulai .

Penginstalan driver tamu

Cmdlet PowerShell berikut dapat digunakan untuk penginstalan driver:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Bergantung pada OS, jenis, dan konektivitas VM GPU Azure Stack Hub, Anda perlu memodifikasi dengan pengaturan di bawah ini.

AMD MI25

Versi driver tamu harus cocok dengan versi Azure Stack Hub, terlepas dari status konektivitas. Menggunakan versi yang lebih baru yang tidak selaras dengan versi Azure Stack Hub dapat menyebabkan masalah kegunaan.

Versi Azure Stack Hub Driver Tamu AMD
2206 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Terhubung

Gunakan skrip PowerShell di bagian sebelumnya dengan jenis driver yang sesuai untuk AMD. Artikel Menginstal driver GPU AMD pada VM seri N yang menjalankan Windows memberikan instruksi tentang menginstal driver untuk AMD Radeon Instinct MI25 di dalam VM yang diaktifkan GPU-P NVv4, bersama dengan langkah-langkah tentang cara memverifikasi penginstalan driver.

Terputus

Karena ekstensi menarik driver dari lokasi di internet, VM yang terputus dari jaringan eksternal tidak dapat mengaksesnya. Anda dapat mengunduh driver dari tabel sebelumnya dan mengunggah ke akun penyimpanan di jaringan lokal Anda yang dapat diakses oleh VM.

Tambahkan driver AMD ke akun penyimpanan dan tentukan URL ke akun tersebut di Settings. Pengaturan ini harus digunakan dalam cmdlet Set-AzureRMVMExtension . Contohnya:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Driver NVIDIA harus diinstal di dalam mesin virtual untuk beban kerja CUDA atau GRID menggunakan GPU.

Kasus penggunaan: grafik/visualisasi GRID

Skenario ini memerlukan penggunaan driver GRID. Driver GRID dapat diunduh melalui NVIDIA Application Hub, asalkan Anda memiliki lisensi yang diperlukan. Driver GRID juga memerlukan server lisensi GRID dengan lisensi GRID yang sesuai sebelum menggunakan driver GRID pada VM.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Kasus penggunaan: komputasi/CUDA - Terhubung

Driver CUDA tidak memerlukan server lisensi dan tidak memerlukan pengaturan yang dimodifikasi.

Kasus penggunaan: komputasi/CUDA - Terputus

Tautan ke driver NVIDIA CUDA dapat diperoleh menggunakan tautan: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Anda perlu mereferensikan beberapa URL untuk pengaturan Anda.

URL Catatan
PUBKEY_URL PUBKEY_URL adalah kunci publik untuk repositori driver Nvidia, bukan untuk VM Linux. Ini digunakan untuk menginstal driver untuk Ubuntu.
DKMS_URL DKMS_URL digunakan untuk mendapatkan paket untuk mengkompilasi modul kernel Nvidia pada RedHat/CentOs.
DRIVER_URL DRIVER_URL adalah URL untuk mengunduh informasi repositori driver Nvidia dan ditambahkan ke daftar repos VM Linux.
LIS_URL LIS_URL adalah URL untuk mengunduh paket Linux Integration Service untuk RedHat/CentOs, Linux Integration Services v4.3 untuk Hyper-V dan Azure di URL https://www.microsoft.com/download/details.aspx?id=55106 secara default tidak diinstal. LIS_RHEL_ver adalah versi kernel fallback yang seharusnya berfungsi dengan driver Nvidia. Versi ini digunakan pada RedHat/CentOs jika kernel VM Linux tidak kompatibel dengan driver Nvidia yang diminta.

Tambahkan URL ke pengaturan Anda.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Langkah berikutnya