Menggunakan GPU untuk beban kerja intensif komputasi (AKS di Azure Stack HCI 23H2)

Artikel
06/08/2024

Berlaku untuk: Azure Stack HCI, versi 23H2

Catatan

Untuk informasi tentang GPU di AKS di Azure Stack HCI 22H2, lihat Menggunakan GPU (HCI 22H2).

Unit Pemrosesan Grafis (GPU) digunakan untuk beban kerja intensif komputasi seperti pembelajaran mesin, pembelajaran mendalam, dan banyak lagi. Artikel ini menjelaskan cara menggunakan GPU untuk beban kerja intensif komputasi di AKS yang diaktifkan oleh Azure Arc.

Model GPU yang didukung

Model GPU berikut didukung oleh AKS di Azure Stack HCI 23H2:

Produsen	Model GPU	Versi yang didukung
Nvidia	A2	2311.2
Nvidia	A16	2402.0

Ukuran komputer virtual yang didukung

Ukuran VM berikut untuk setiap model GPU didukung oleh AKS di Azure Stack HCI 23H2.

Nvidia A2 didukung oleh SKU NC2 A2

Ukuran komputer virtual	GPU	Memori GPU: GiB	vCPU	Memori: GiB
Standard_NC4_A2	1	16	4	8
Standard_NC8_A2	1	16	8	16
Standard_NC16_A2	2	48	16	64
Standard_NC32_A2	2	48	32	28

Nvidia A16 didukung oleh SKU NC2 A16

Ukuran komputer virtual	GPU	Memori GPU: GiB	vCPU	Memori: GiB
Standard_NC4_A16	1	16	4	8
Standard_NC8_A16	1	16	8	16
Standard_NC16_A16	2	48	16	64
Standard_NC32_A16	2	48	32	28

Sebelum Anda mulai

Untuk menggunakan GPU di AKS Arc, pastikan Anda menginstal driver GPU yang diperlukan sebelum memulai penyebaran kluster. Ikuti langkah-langkah di bagian ini.

Langkah 1: instal OS

Instal Azure Stack HCI, sistem operasi versi 23H2 secara lokal di setiap server di kluster Azure Stack HCI Anda.

Langkah 2: hapus instalan driver host NVIDIA

Pada setiap komputer host, navigasikan ke Panel Kontrol > Tambahkan atau Hapus program, hapus instalan driver host NVIDIA, lalu boot ulang komputer. Setelah komputer di-boot ulang, konfirmasikan bahwa driver berhasil dihapus instalasinya. Buka terminal PowerShell yang ditingkatkan dan jalankan perintah berikut:

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"3d video"

Anda akan melihat perangkat GPU muncul dalam status kesalahan seperti yang ditunjukkan dalam contoh output ini:

Error       3D Video Controller                   PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
Error       3D Video Controller                   PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 3: lepaskan driver host dari host

Saat Anda menghapus instalan driver host, GPU fisik masuk ke status kesalahan. Anda harus melepas semua perangkat GPU dari host.

Untuk setiap perangkat GPU (Pengontrol Video 3D), jalankan perintah berikut di PowerShell. Salin ID instans; misalnya, PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 dari output perintah sebelumnya:

$id1 = "<Copy and paste GPU instance id into this string>"
$lp1 = (Get-PnpDeviceProperty -KeyName DEVPKEY_Device_LocationPaths -InstanceId $id1).Data[0]
Disable-PnpDevice -InstanceId $id1 -Confirm:$false
Dismount-VMHostAssignableDevice -LocationPath $lp1 -Force

Untuk mengonfirmasi bahwa GPU dilepas dengan benar dari host, jalankan perintah berikut. Anda harus menempatkan GPU dalam keadaan Unknown :

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"3d video"

Unknown       3D Video Controller               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
Unknown       3D Video Controller               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 4: unduh dan instal driver mitigasi NVIDIA

Perangkat lunak ini mungkin mencakup komponen yang dikembangkan dan dimiliki oleh NVIDIA Corporation atau pemberi lisensinya. Penggunaan komponen ini diatur oleh perjanjian lisensi pengguna akhir NVIDIA.

Lihat dokumentasi pusat data NVIDIA untuk mengunduh driver mitigasi NVIDIA. Setelah mengunduh driver, perluas arsip dan instal driver mitigasi pada setiap komputer host. Anda dapat mengikuti skrip PowerShell ini untuk mengunduh driver mitigasi dan mengekstraknya:

Invoke-WebRequest -Uri "https://docs.nvidia.com/datacenter/tesla/gpu-passthrough/nvidia_azure_stack_inf_v2022.10.13_public.zip" -OutFile "nvidia_azure_stack_inf_v2022.10.13_public.zip"
mkdir nvidia-mitigation-driver
Expand-Archive .\nvidia_azure_stack_inf_v2022.10.13_public.zip .\nvidia-mitigation-driver\

Untuk menginstal driver mitigasi, navigasikan ke folder yang berisi file yang diekstrak, dan pilih file driver GPU berdasarkan jenis GPU aktual yang diinstal pada host Azure Stack HCI Anda. Misalnya, jika jenisnya adalah GPU A2, klik kanan file nvidia_azure_stack_A2_base.inf , dan pilih Instal.

Anda juga dapat menginstal menggunakan baris perintah dengan menavigasi ke folder dan menjalankan perintah berikut untuk menginstal driver mitigasi:

pnputil /add-driver nvidia_azure_stack_A2_base.inf /install 
pnputil /scan-devices

Setelah Anda menginstal driver mitigasi, GPU tercantum dalam status OK di bawah Nvidia A2_base - Dilepas:

Get-PnpDevice  | select status, class, friendlyname, instanceid | findstr /i /c:"nvidia"

OK       Nvidia A2_base - Dismounted               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&32EEF88F&0&0000 
OK       Nvidia A2_base - Dismounted               PCI\VEN_10DE&DEV_1EB8&SUBSYS_12A210DE&REV_A1\4&3569C1D3&0&0000

Langkah 5: ulangi langkah 1 hingga 4

Ulangi langkah 1 hingga 4 untuk setiap server di kluster HCI Anda.

Langkah 6: lanjutkan penyebaran kluster Azure Stack HCI

Lanjutkan penyebaran kluster Azure Stack HCI dengan mengikuti langkah-langkah di Azure Stack HCI, penyebaran versi 23H2.

Mendapatkan daftar SKU VM dengan dukungan GPU yang tersedia

Setelah penyebaran kluster Azure Stack HCI selesai, Anda dapat menjalankan perintah CLI berikut untuk menampilkan SKU VM yang tersedia pada penyebaran Anda. Jika driver GPU Anda diinstal dengan benar, SKU VM GPU yang sesuai tercantum:

az aksarc vmsize list --custom-location <custom location ID> -g <resource group name>

Membuat kluster beban kerja baru dengan kumpulan simpul dengan dukungan GPU

Saat ini, penggunaan kumpulan node yang mendukung GPU hanya tersedia untuk kumpulan node Linux. Untuk membuat kluster Kubernetes baru:

az aksarc create -n <aks cluster name> -g <resource group name> --custom-location <custom location ID> --vnet-ids <vnet ID>

Contoh berikut menambahkan kumpulan simpul dengan 2 simpul yang diaktifkan GPU (NVDIA A2) dengan SKU VM Standard_NC4_A2 :

az aksarc nodepool add --cluster-name <aks cluster name> -n <node pool name> -g <resource group name> --node-count 2 --node-vm-size Standard_NC4_A2 --os-type Linux

Konfirmasikan bahwa Anda dapat menjadwalkan GPU

Dengan kumpulan simpul GPU yang dibuat, konfirmasikan bahwa Anda dapat menjadwalkan GPU di Kubernetes. Pertama, daftar node di klaster Anda dengan perintah kubectl get nodes:

kubectl get nodes

NAME             STATUS  ROLES                 AGE   VERSION
moc-l9qz36vtxzj  Ready   control-plane,master  6m14s  v1.22.6
moc-lhbkqoncefu  Ready   <none>                3m19s  v1.22.6
moc-li87udi8l9s  Ready   <none>                3m5s  v1.22.6

Sekarang gunakan perintah kubectl describe node untuk mengonfirmasi bahwa GPU dapat dijadwalkan. Di bawah bagian Kapasitas , GPU akan muncul sebagai nvidia.com/gpu: 1.

kubectl describe <node> | findstr "gpu"

Output harus menampilkan GPU dari simpul pekerja dan terlihat seperti ini:

Capacity: 
  cpu:                4 
  ephemeral-storage:  103110508Ki 
  hugepages-1Gi:      0 
  hugepages-2Mi:      0 
  memory:             7865020Ki 
  nvidia.com/gpu:     1 
  pods:               110

Jalankan beban kerja yang mendukung GPU

Setelah Anda menyelesaikan langkah-langkah sebelumnya, buat file YAML baru untuk pengujian; misalnya, gpupod.yaml. Salin dan tempel YAML berikut ke dalam file baru bernama gpupod.yaml, lalu simpan:

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vector-add
spec:
  restartPolicy: OnFailure
  containers:
  - name: cuda-vector-add
    image: "k8s.gcr.io/cuda-vector-add:v0.1"
    resources:
      limits:
        nvidia.com/gpu: 1

Jalankan perintah berikut untuk menyebarkan aplikasi sampel:

kubectl apply -f gpupod.yaml

Verifikasi bahwa pod dimulai, selesai berjalan, dan GPU ditetapkan:

kubectl describe pod cuda-vector-add | findstr 'gpu'

Perintah sebelumnya harus menampilkan satu GPU yang ditetapkan:

nvidia.com/gpu: 1
nvidia.com/gpu: 1

Periksa file log pod untuk melihat apakah pengujian lulus:

kubectl logs cuda-vector-add

Berikut ini adalah contoh output dari perintah sebelumnya:

[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done

Jika Anda menerima kesalahan ketidakcocokan versi saat memanggil driver, seperti "Versi driver CUDA tidak mencukupkan untuk versi runtime CUDA," tinjau bagan kompatibilitas matriks driver NVIDIA.

FAQ

Apa yang terjadi selama peningkatan kumpulan simpul berkemampuan GPU?

Meningkatkan kumpulan simpul berkemampuan GPU mengikuti pola peningkatan bergulir yang sama yang digunakan untuk kumpulan simpul reguler. Agar kumpulan simpul berkemampuan GPU di VM baru berhasil dibuat pada komputer host fisik, diperlukan satu atau beberapa GPU fisik untuk tersedia untuk penetapan perangkat yang berhasil. Ketersediaan ini memastikan bahwa aplikasi Anda dapat terus berjalan ketika Kubernetes menjadwalkan pod pada simpul yang ditingkatkan ini.

Sebelum Anda memutakhirkan:

Rencanakan waktu henti selama peningkatan.
Memiliki satu GPU tambahan per host fisik jika Anda menjalankan Standard_NK6 atau 2 GPU tambahan jika Anda menjalankan Standard_NK12. Jika Anda berjalan pada kapasitas penuh dan tidak memiliki GPU tambahan, kami sarankan menurunkan skala kumpulan simpul Anda ke satu simpul sebelum peningkatan, maka peningkatan skala setelah peningkatan berhasil.

Apa yang terjadi jika saya tidak memiliki GPU fisik tambahan di komputer fisik saya selama peningkatan?

Jika peningkatan dipicu pada kluster tanpa sumber daya GPU tambahan untuk memfasilitasi peningkatan bergulir, proses peningkatan macet hingga GPU tersedia. Jika Anda berjalan pada kapasitas penuh dan tidak memiliki GPU tambahan, sebaiknya turunkan skala kumpulan simpul Anda ke satu simpul sebelum peningkatan, lalu tingkatkan skala setelah peningkatan berhasil.

Bagikan melalui