Dela via


Installera AMD GPU-drivrutiner på virtuella Azure ND MI300X v5 Linux-datorer

Gäller för: ✔️ Virtuella Linux-datorer

Det här dokumentet beskriver stegen för att installera och uppgradera AMD Linux-drivrutinen på en azure ND MI300X v5 VM-instans. Tre viktiga scenarier beskrivs:

Versionskrav

Anmärkning

AMD:s ROCm-drivrutiner stöder för närvarande endast MI300X på Ubuntu 22.04 med 5.15 Kernel och ROCm 6.2.2.

  • OPERATIVSYSTEM: Ubuntu 22.04
  • Kernel: 5.15
  • ROCm: 6.2.2
  • Säker start: Inaktiverad

Att använda AzureHPC Marketplace Image är den rekommenderade metoden. Avbildningen har redan AMD- och Infiniband-drivrutinerna förinstallerade. Du kan distribuera antingen via CLI eller Azure-portalen.

Via CLI (az vm create) anger du avbildningen med --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest.

Följ den här länken för att distribuera via Azure-portalen. Klicka på "Hämta nu" och välj "Ubuntu HPC 22.04 ROCm".

Marketplace-avbildning

Installera ROCm i Ubuntu 22.04

Verifiera Linux-distro

Bekräfta att systemet har en Linux-version som stöds. Använd följande kommando för att hämta Linux-distributionsinformationen:

cat /etc/issue

Utdata liknar följande exempel

# Ubuntu 22.04.5 LTS \n \l

Nedgradera Linux-kernel

Om du vill kontrollera kernelversionen av linux-systemet använder du följande kommando:

uname -srmv

Utdata liknar följande exempel

# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64

Nedgradera till 5.15-versionen av Linux-kerneln

 sudo apt install -y linux-headers-5.15.0-1073-azure
 sudo apt install -y linux-image-5.15.0-1073-azure

Uppgradera standardalternativet grub-meny. HASH är kopplat till antalet kernelrevisioner (XXXX i 5.15.0-XXXX-azure). Den finns i /boot/grub/grub.cfg

sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub

sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub

sudo update-grub
sudo reboot

*** Viktigt: *** Bekräfta den nedgraderade versionen av Din Linux-kernel

uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64

Ta bort de gamla kärnorna

sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure

Installera AMDGPU-drivrutinerna

Installationsinstruktioner för enhetsdrivrutiner finns här

wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm

Bekräfta AMDGPU-drivrutinsversionen

cat /opt/rocm/.info/version
# 6.2.2-116

Ladda AMDGPU-drivrutinen

Lägg till dig själv i renderings- och videogruppen med hjälp av följande kommando

sudo modprobe -r hyperv_drm
sudo modprobe  amdgpu ip_block_mask=0x7f

Verifiera GPU-drivrutinsinstallationen med rocm-smi:

============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device  Node  IDs              Temp        Power     Partitions          SCLK    MCLK    Fan  Perf  PwrCap  VRAM%  GPU%
              (DID,     GUID)  (Junction)  (Socket)  (Mem, Compute, ID)
==========================================================================================================================
0       2     0x74b5,   65402  49.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
1       3     0x74b5,   27175  50.0°C      160.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
2       4     0x74b5,   16561  47.0°C      155.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
3       5     0x74b5,   54764  47.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
4       6     0x74b5,   10760  46.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
5       7     0x74b5,   48981  49.0°C      163.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
6       8     0x74b5,   32548  45.0°C      156.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
7       9     0x74b5,   60025  50.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================

Uppgradera ROCm i Ubuntu 22.04

amdgpu Ta bort kernelmodulen och avinstallera rocm.

modprobe -r amdgpu
sudo amdgpu-uninstall

Följ anvisningarna för att installera AMDGPU-drivrutinerna för att installera de nya drivrutinerna.