Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: ✔️ виртуальные машины Linux
В этом документе описаны шаги по установке и обновлению драйвера AMD Linux на экземпляре виртуальной машины ND MI300X версии 5. Рассматриваются три ключевых сценария:
- Установка и обновление ROCm с помощью образа Marketplace — рекомендуется
- Установка ROCm в Ubuntu 22.04
- Обновление ROCm в Ubuntu 22.04
Требования к версиям
Замечание
Драйверы ROCm AMD в настоящее время поддерживают только MI300X в Ubuntu 22.04 с ядром 5.15 и ROCm 6.2.2.
- ОС: Ubuntu 22.04
- Ядро: 5.15
- ROCm: 6.2.2
- Безопасная загрузка: отключена
Установка и обновление ROCm с помощью образа AzureHPC Marketplace — рекомендуется
Использование образа AzureHPC Marketplace является рекомендованным подходом. На изображении уже установлены драйверы AMD и Infiniband. Вы можете развернуть приложение или службу через интерфейс командной строки (CLI) или портал Azure.
Укажите изображение с помощью интерфейса командной строки (az vm create
) и --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest
.
Перейдите по этой ссылке, чтобы развернуть через портал Azure. Нажмите кнопку "Получить сейчас" и выберите "Ubuntu HPC 22.04 ROCm".

Установка ROCm в Ubuntu 22.04
Проверка дистрибутива Linux
Убедитесь, что в системе есть поддерживаемая версия Linux. Чтобы получить сведения о дистрибутиве Linux, используйте следующую команду:
cat /etc/issue
Выходные данные аналогичны следующему примеру
# Ubuntu 22.04.5 LTS \n \l
Понижение уровня ядра Linux
Чтобы проверить версию ядра системы Linux, используйте следующую команду:
uname -srmv
Выходные данные аналогичны следующему примеру
# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64
Понижение до версии ядра Linux 5.15
sudo apt install -y linux-headers-5.15.0-1073-azure
sudo apt install -y linux-image-5.15.0-1073-azure
Обновите параметр меню grub по умолчанию. ХЭШ привязан к числу редакций ядра (XXXX в 5.15.0-XXXX-azure). Его можно найти в /boot/grub/grub.cfg
sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub
sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub
sudo update-grub
sudo reboot
*** Важный: *** Подтвердите пониженную версию ядра Linux
uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64
Удаление старых ядер
sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure
Установка драйверов AMDGPU
Инструкции по установке драйвера устройства приведены здесь
wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm
Подтверждение версии драйвера AMDGPU
cat /opt/rocm/.info/version
# 6.2.2-116
Загрузка драйвера AMDGPU
Добавьте себя в группу рендеринга и видео с помощью следующей команды.
sudo modprobe -r hyperv_drm
sudo modprobe amdgpu ip_block_mask=0x7f
Проверьте установку драйвера GPU с помощью rocm-smi
:
============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device Node IDs Temp Power Partitions SCLK MCLK Fan Perf PwrCap VRAM% GPU%
(DID, GUID) (Junction) (Socket) (Mem, Compute, ID)
==========================================================================================================================
0 2 0x74b5, 65402 49.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
1 3 0x74b5, 27175 50.0°C 160.0W NPS1, N/A, 0 132Mhz 900Mhz 0% auto 750.0W 0% 0%
2 4 0x74b5, 16561 47.0°C 155.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
3 5 0x74b5, 54764 47.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
4 6 0x74b5, 10760 46.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
5 7 0x74b5, 48981 49.0°C 163.0W NPS1, N/A, 0 132Mhz 900Mhz 0% auto 750.0W 0% 0%
6 8 0x74b5, 32548 45.0°C 156.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
7 9 0x74b5, 60025 50.0°C 160.0W NPS1, N/A, 0 131Mhz 900Mhz 0% auto 750.0W 0% 0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================
Обновление ROCm в Ubuntu 22.04
Удалите модуль ядра amdgpu
и деинсталлируйте rocm.
modprobe -r amdgpu
sudo amdgpu-uninstall
Следуйте инструкциям по установке драйверов AMDGPU для установки новых драйверов.