Sdílet prostřednictvím


Instalace ovladačů AMD GPU na virtuální počítače Azure ND MI300X v5 s Linuxem

Platí pro: ✔️ Virtuální počítače s Linuxem

Tento dokument popisuje kroky pro instalaci a upgrade ovladače AMD Linux na instanci virtuálního počítače Azure ND MI300X v5. Probíráme tři klíčové scénáře:

Požadavky na verze

Poznámka:

Ovladače ROCm AMD v současné době podporují pouze MI300X na Ubuntu 22.04 s jádrem 5.15 a ROCm 6.2.2.

  • Operační systém: Ubuntu 22.04
  • Jádro: 5.15
  • ROCm: 6.2.2
  • Zabezpečené spouštění: Zakázáno

Doporučeným přístupem je použití image AzureHPC Marketplace. Image již má ovladače AMD a Infiniband předinstalované. Nasazení můžete provést prostřednictvím rozhraní příkazového řádku nebo webu Azure Portal.

Pomocí rozhraní příkazového řádku (az vm create) specifikujte obraz pomocí příkazu --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest.

Pomocí tohoto odkazu nasaďte prostřednictvím Azure portálu. Klikněte na Získat hned a zvolte Ubuntu HPC 22.04 ROCm.

Marketplace Image

Instalace ROCm v Ubuntu 22.04

Ověření distribuce Linuxu

Ověřte, že systém má podporovanou verzi Linuxu. Pokud chcete získat informace o distribuci Linuxu, použijte následující příkaz:

cat /etc/issue

Výstup je podobný následujícímu příkladu.

# Ubuntu 22.04.5 LTS \n \l

Degradace linuxového jádra

Pokud chcete zkontrolovat verzi jádra systému Linux, použijte následující příkaz:

uname -srmv

Výstup je podobný následujícímu příkladu.

# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64

Downgrade na verzi 5.15 jádra Linuxu

 sudo apt install -y linux-headers-5.15.0-1073-azure
 sudo apt install -y linux-image-5.15.0-1073-azure

Upgradujte výchozí možnost nabídky grub. Hodnota HASH je svázaná s počtem revizí jádra (XXXX v 5.15.0-XXXX-azure). Najdete ji v souboru /boot/grub/grub.cfg.

sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub

sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub

sudo update-grub
sudo reboot

*** Důležitý: *** Potvrďte downgradovanou verzi jádra Linuxu.

uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64

Odebrání starých jader

sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure

Instalace ovladačů AMDGPU

Pokyny k instalaci ovladačů zařízení najdete tady:

wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm

Potvrďte verzi ovladače AMDGPU.

cat /opt/rocm/.info/version
# 6.2.2-116

Načtení ovladače AMDGPU

Přidejte se do skupiny vykreslování a videa pomocí následujícího příkazu.

sudo modprobe -r hyperv_drm
sudo modprobe  amdgpu ip_block_mask=0x7f

Ověřte instalaci ovladače GPU pomocí rocm-smi:

============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device  Node  IDs              Temp        Power     Partitions          SCLK    MCLK    Fan  Perf  PwrCap  VRAM%  GPU%
              (DID,     GUID)  (Junction)  (Socket)  (Mem, Compute, ID)
==========================================================================================================================
0       2     0x74b5,   65402  49.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
1       3     0x74b5,   27175  50.0°C      160.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
2       4     0x74b5,   16561  47.0°C      155.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
3       5     0x74b5,   54764  47.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
4       6     0x74b5,   10760  46.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
5       7     0x74b5,   48981  49.0°C      163.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
6       8     0x74b5,   32548  45.0°C      156.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
7       9     0x74b5,   60025  50.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================

Aktualizace ROCm na Ubuntu 22.04

Odeberte modul jádra amdgpu a odinstalujte ROCm.

modprobe -r amdgpu
sudo amdgpu-uninstall

Podle pokynů nainstalujte ovladače AMDGPU a nainstalujte nové ovladače.