Compartir a través de


Instalación de controladores de GPU amd en máquinas virtuales Linux de Azure ND MI300X v5

Se aplica a: ✔️ Máquinas virtuales Linux

En este documento se describen los pasos para instalar y actualizar AMD Linux Driver en una instancia de máquina virtual de Azure ND MI300X v5. Se tratan tres escenarios clave:

Requisitos de versión

Nota:

Actualmente, los controladores ROCm de AMD solo admiten MI300X en Ubuntu 22.04 con el kernel 5.15 y ROCm 6.2.2.

  • Sistema operativo: Ubuntu 22.04
  • Kernel: 5.15
  • ROCm: 6.2.2
  • Arranque seguro: Deshabilitado

El uso de la imagen de Marketplace de AzureHPC es el enfoque recomendado. La imagen ya tiene los controladores AMD e Infiniband preinstalados. Puede realizar la implementación a través de la CLI o Azure Portal.

Mediante la CLI (az vm create) especifique la imagen con --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest.

Siga este vínculo para realizar la implementación a través de Azure Portal. Haga clic en "Obtener ahora" y elija "Ubuntu HPC 22.04 ROCm".

Imagen de Marketplace

Instalación de ROCm en Ubuntu 22.04

Comprobación de la distribución de Linux

Confirme que el sistema tenga una versión de Linux compatible. Para obtener información de la distribución Linux, use el siguiente comando:

cat /etc/issue

La salida es similar a la del ejemplo siguiente

# Ubuntu 22.04.5 LTS \n \l

Degradación del kernel de Linux

Para comprobar la versión del kernel del sistema Linux, use el siguiente comando:

uname -srmv

La salida es similar a la del ejemplo siguiente

# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64

Degradación a la versión 5.15 del kernel de Linux

 sudo apt install -y linux-headers-5.15.0-1073-azure
 sudo apt install -y linux-image-5.15.0-1073-azure

Actualice la opción de menú grub predeterminada. El hash está vinculado al recuento de revisiones del kernel (XXXX en 5.15.0-XXXX-azure). Se puede encontrar en /boot/grub/grub.cfg.

sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub

sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub

sudo update-grub
sudo reboot

*** Importante: *** Confirmación de la versión degradada del kernel de Linux

uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64

Quitar los núcleos antiguos

sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure

Instalación de los controladores AMDGPU

Las instrucciones de instalación del controlador de dispositivo se proporcionan aquí

wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm

Confirmación de la versión del controlador AMDGPU

cat /opt/rocm/.info/version
# 6.2.2-116

Carga del controlador AMDGPU

Agréguese al grupo de representación y vídeo mediante el siguiente comando.

sudo modprobe -r hyperv_drm
sudo modprobe  amdgpu ip_block_mask=0x7f

Compruebe la instalación del controlador de GPU con rocm-smi:

============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device  Node  IDs              Temp        Power     Partitions          SCLK    MCLK    Fan  Perf  PwrCap  VRAM%  GPU%
              (DID,     GUID)  (Junction)  (Socket)  (Mem, Compute, ID)
==========================================================================================================================
0       2     0x74b5,   65402  49.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
1       3     0x74b5,   27175  50.0°C      160.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
2       4     0x74b5,   16561  47.0°C      155.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
3       5     0x74b5,   54764  47.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
4       6     0x74b5,   10760  46.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
5       7     0x74b5,   48981  49.0°C      163.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
6       8     0x74b5,   32548  45.0°C      156.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
7       9     0x74b5,   60025  50.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================

Actualización de ROCm en Ubuntu 22.04

Quite el amdgpu módulo de kernel y desinstale rocm.

modprobe -r amdgpu
sudo amdgpu-uninstall

Siga las instrucciones para instalar los controladores AMDGPU para instalar los nuevos controladores.