Поделиться через


Установка драйверов GPU AMD на виртуальных машинах Linux ND MI300X v5 на Azure

Область применения: ✔️ виртуальные машины Linux

В этом документе описаны шаги по установке и обновлению драйвера AMD Linux на экземпляре виртуальной машины ND MI300X версии 5. Рассматриваются три ключевых сценария:

Требования к версиям

Замечание

Драйверы ROCm AMD в настоящее время поддерживают только MI300X в Ubuntu 22.04 с ядром 5.15 и ROCm 6.2.2.

  • ОС: Ubuntu 22.04
  • Ядро: 5.15
  • ROCm: 6.2.2
  • Безопасная загрузка: отключена

Использование образа AzureHPC Marketplace является рекомендованным подходом. На изображении уже установлены драйверы AMD и Infiniband. Вы можете развернуть приложение или службу через интерфейс командной строки (CLI) или портал Azure.

Укажите изображение с помощью интерфейса командной строки (az vm create) и --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest.

Перейдите по этой ссылке, чтобы развернуть через портал Azure. Нажмите кнопку "Получить сейчас" и выберите "Ubuntu HPC 22.04 ROCm".

Изображение торговой площадки

Установка ROCm в Ubuntu 22.04

Проверка дистрибутива Linux

Убедитесь, что в системе есть поддерживаемая версия Linux. Чтобы получить сведения о дистрибутиве Linux, используйте следующую команду:

cat /etc/issue

Выходные данные аналогичны следующему примеру

# Ubuntu 22.04.5 LTS \n \l

Понижение уровня ядра Linux

Чтобы проверить версию ядра системы Linux, используйте следующую команду:

uname -srmv

Выходные данные аналогичны следующему примеру

# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64

Понижение до версии ядра Linux 5.15

 sudo apt install -y linux-headers-5.15.0-1073-azure
 sudo apt install -y linux-image-5.15.0-1073-azure

Обновите параметр меню grub по умолчанию. ХЭШ привязан к числу редакций ядра (XXXX в 5.15.0-XXXX-azure). Его можно найти в /boot/grub/grub.cfg

sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub

sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub

sudo update-grub
sudo reboot

*** Важный: *** Подтвердите пониженную версию ядра Linux

uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64

Удаление старых ядер

sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure

Установка драйверов AMDGPU

Инструкции по установке драйвера устройства приведены здесь

wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm

Подтверждение версии драйвера AMDGPU

cat /opt/rocm/.info/version
# 6.2.2-116

Загрузка драйвера AMDGPU

Добавьте себя в группу рендеринга и видео с помощью следующей команды.

sudo modprobe -r hyperv_drm
sudo modprobe  amdgpu ip_block_mask=0x7f

Проверьте установку драйвера GPU с помощью rocm-smi:

============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device  Node  IDs              Temp        Power     Partitions          SCLK    MCLK    Fan  Perf  PwrCap  VRAM%  GPU%
              (DID,     GUID)  (Junction)  (Socket)  (Mem, Compute, ID)
==========================================================================================================================
0       2     0x74b5,   65402  49.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
1       3     0x74b5,   27175  50.0°C      160.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
2       4     0x74b5,   16561  47.0°C      155.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
3       5     0x74b5,   54764  47.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
4       6     0x74b5,   10760  46.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
5       7     0x74b5,   48981  49.0°C      163.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
6       8     0x74b5,   32548  45.0°C      156.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
7       9     0x74b5,   60025  50.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================

Обновление ROCm в Ubuntu 22.04

Удалите модуль ядра amdgpu и деинсталлируйте rocm.

modprobe -r amdgpu
sudo amdgpu-uninstall

Следуйте инструкциям по установке драйверов AMDGPU для установки новых драйверов.