Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Se aplica a: ✔️ Máquinas virtuales Linux
En este documento se describen los pasos para instalar y actualizar AMD Linux Driver en una instancia de máquina virtual de Azure ND MI300X v5. Se tratan tres escenarios clave:
- Instalación o actualización de ROCm a través de la imagen de Marketplace : recomendado
- Instalación de ROCm en Ubuntu 22.04
- Actualización de ROCm en Ubuntu 22.04
Requisitos de versión
Nota:
Actualmente, los controladores ROCm de AMD solo admiten MI300X en Ubuntu 22.04 con el kernel 5.15 y ROCm 6.2.2.
- Sistema operativo: Ubuntu 22.04
- Kernel: 5.15
- ROCm: 6.2.2
- Arranque seguro: Deshabilitado
Instalación o actualización de ROCm mediante la imagen de Marketplace de AzureHPC: Recomendado
El uso de la imagen de Marketplace de AzureHPC es el enfoque recomendado. La imagen ya tiene los controladores AMD e Infiniband preinstalados. Puede realizar la implementación a través de la CLI o Azure Portal.
Mediante la CLI (az vm create
) especifique la imagen con --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest
.
Siga este vínculo para realizar la implementación a través de Azure Portal. Haga clic en "Obtener ahora" y elija "Ubuntu HPC 22.04 ROCm".

Instalación de ROCm en Ubuntu 22.04
Comprobación de la distribución de Linux
Confirme que el sistema tenga una versión de Linux compatible. Para obtener información de la distribución Linux, use el siguiente comando:
cat /etc/issue
La salida es similar a la del ejemplo siguiente
# Ubuntu 22.04.5 LTS \n \l
Degradación del kernel de Linux
Para comprobar la versión del kernel del sistema Linux, use el siguiente comando:
uname -srmv
La salida es similar a la del ejemplo siguiente
# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64
Degradación a la versión 5.15 del kernel de Linux
sudo apt install -y linux-headers-5.15.0-1073-azure
sudo apt install -y linux-image-5.15.0-1073-azure
Actualice la opción de menú grub predeterminada. El hash está vinculado al recuento de revisiones del kernel (XXXX en 5.15.0-XXXX-azure). Se puede encontrar en /boot/grub/grub.cfg.
sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub
sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub
sudo update-grub
sudo reboot
*** Importante: *** Confirmación de la versión degradada del kernel de Linux
uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64
Quitar los núcleos antiguos
sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure
Instalación de los controladores AMDGPU
Las instrucciones de instalación del controlador de dispositivo se proporcionan aquí
wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm
Confirmación de la versión del controlador AMDGPU
cat /opt/rocm/.info/version
# 6.2.2-116
Carga del controlador AMDGPU
Agréguese al grupo de representación y vídeo mediante el siguiente comando.
sudo modprobe -r hyperv_drm
sudo modprobe amdgpu ip_block_mask=0x7f
Compruebe la instalación del controlador de GPU con rocm-smi
:
============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device Node IDs Temp Power Partitions SCLK MCLK Fan Perf PwrCap VRAM% GPU%
(DID, GUID) (Junction) (Socket) (Mem, Compute, ID)
==========================================================================================================================
0 2 0x74b5, 65402 49.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
1 3 0x74b5, 27175 50.0°C 160.0W NPS1, N/A, 0 132Mhz 900Mhz 0% auto 750.0W 0% 0%
2 4 0x74b5, 16561 47.0°C 155.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
3 5 0x74b5, 54764 47.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
4 6 0x74b5, 10760 46.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
5 7 0x74b5, 48981 49.0°C 163.0W NPS1, N/A, 0 132Mhz 900Mhz 0% auto 750.0W 0% 0%
6 8 0x74b5, 32548 45.0°C 156.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
7 9 0x74b5, 60025 50.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================
Actualización de ROCm en Ubuntu 22.04
Quite el amdgpu
módulo de kernel y desinstale rocm.
modprobe -r amdgpu
sudo amdgpu-uninstall
Siga las instrucciones para instalar los controladores AMDGPU para instalar los nuevos controladores.