Aracılığıyla paylaş


Azure ND MI300X v5 Linux VM'lerine AMD GPU sürücüleri yükleme

Şunlar için geçerlidir: ✔️ Linux VM'leri

Bu belgede, Bir Azure ND MI300X v5 VM örneğine AMD Linux Sürücüsü yükleme ve yükseltme adımları özetlenmiştir. Üç önemli senaryo ele alınmıştır:

Sürüm Gereksinimleri

Uyarı

AMD'nin ROCm sürücüleri şu anda yalnızca Ubuntu 22.04 üzerinde 5.15 Çekirdeği ve ROCm 6.2.2 ile MI300X'i destekler.

  • İşletim sistemi: Ubuntu 22.04
  • Çekirdek: 5.15
  • ROCm: 6.2.2
  • Güvenli Önyükleme: Devre Dışı

Önerilen yaklaşım, AzureHPC Marketplace Görüntüsü'nü kullanmaktır. Görüntüde AMD ve Infiniband sürücüleri önceden yüklenmiş. CLI veya Azure portalı aracılığıyla dağıtım yapabilirsiniz.

CLI (az vm create) aracılığıyla görüntüyü --image microsoft-dsvm:ubuntu-hpc:2204-rocm:latest ile belirtin.

Azure portalı aracılığıyla dağıtmak için bu bağlantıyı izleyin. "Hemen Al" seçeneğine tıklayın ve "Ubuntu HPC 22.04 ROCm" seçimini yapın.

Pazar Yeri Resmi

Ubuntu 22.04'te ROCm Yükleme

Linux Dağıtımını Doğrulama

Sistemin desteklenen bir Linux sürümüne sahip olduğunu onaylayın. Linux dağıtım bilgilerini almak için aşağıdaki komutu kullanın:

cat /etc/issue

Çıktı aşağıdaki örneğe benzer

# Ubuntu 22.04.5 LTS \n \l

Linux Çekirdeğini Düşürme

Linux sisteminizin çekirdek sürümünü denetlemek için aşağıdaki komutu kullanın:

uname -srmv

Çıktı aşağıdaki örneğe benzer

# Linux 6.8.0-1026-azure #31~22.04.1-Ubuntu SMP Thu Mar 20 04:12:50 UTC 2025 x86_64

Linux çekirdeğinin 5.15 sürümüne düşürme

 sudo apt install -y linux-headers-5.15.0-1073-azure
 sudo apt install -y linux-image-5.15.0-1073-azure

Varsayılan grub menü seçeneğini yükseltin. HASH, çekirdek revizyon sayısına bağlıdır (5.15.0-XXXX-azure olarak XXXX). /boot/grub/grub.cfg içinde bulunabilir

sudo sed -i "s|GRUB_DEFAULT=.*|GRUB_DEFAULT='gnulinux-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4>gnulinux-5.15.0-1073-azure-advanced-5cec22f9-d9ef-44de-8258-c171f96f3dc4'|g" /etc/default/grub

sudo sed -i 's/^GRUB_CMDLINE_LINUX=.*/GRUB_CMDLINE_LINUX="panic=0 nowatchdog msr.allow_writes=on nokaslr amdgpu.noretry=1 pci=realloc=off console=ttyS0,115200n8 video=astdrmfb video=efifb:off ibt=off"/' /etc/default/grub

sudo update-grub
sudo reboot

*** Önemli: *** Linux çekirdeğinizin düşürülen sürümünü onaylayın

uname -srmv
# Linux 5.15.0-1073-azure #82-Ubuntu SMP Mon Sep 2 11:36:34 UTC 2024 x86_64

Eski çekirdekleri kaldırma

sudo apt purge -y linux-headers-6.*-azure linux-image-6.*-azure

AMDGPU sürücülerini yükleme

Cihaz sürücüsü yükleme yönergeleri burada sağlanmıştır

wget https://repo.radeon.com/amdgpu-install/6.2.2/ubuntu/jammy/amdgpu-install_6.2.60202-1_all.deb
sudo apt install ./amdgpu-install_6.2.60202-1_all.deb
sudo amdgpu-install --usecase=rocm

AMDGPU sürücü sürümünü onaylayın

cat /opt/rocm/.info/version
# 6.2.2-116

AMDGPU sürücüsünü yükleme

Aşağıdaki komutu kullanarak işleme ve video grubuna kendinizi ekleyin

sudo modprobe -r hyperv_drm
sudo modprobe  amdgpu ip_block_mask=0x7f

GPU sürücüsü yüklemesini rocm-smi ile doğrulayın.

============================================ ROCm System Management Interface ============================================
====================================================== Concise Info ======================================================
Device  Node  IDs              Temp        Power     Partitions          SCLK    MCLK    Fan  Perf  PwrCap  VRAM%  GPU%
              (DID,     GUID)  (Junction)  (Socket)  (Mem, Compute, ID)
==========================================================================================================================
0       2     0x74b5,   65402  49.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
1       3     0x74b5,   27175  50.0°C      160.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
2       4     0x74b5,   16561  47.0°C      155.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
3       5     0x74b5,   54764  47.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
4       6     0x74b5,   10760  46.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
5       7     0x74b5,   48981  49.0°C      163.0W    NPS1, N/A, 0        132Mhz  900Mhz  0%   auto  750.0W  0%     0%
6       8     0x74b5,   32548  45.0°C      156.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
7       9     0x74b5,   60025  50.0°C      160.0W    NPS1, N/A, 0        131Mhz  900Mhz  0%   auto  750.0W  0%     0%
==========================================================================================================================
================================================== End of ROCm SMI Log ===================================================

Ubuntu 22.04'te ROCm Yükseltme

Çekirdek modülünü amdgpu kaldırın ve rocm'yi kaldırın.

modprobe -r amdgpu
sudo amdgpu-uninstall

Yeni sürücüleri yüklemek için AMDGPU sürücülerini yüklemek için yönergeleri izleyin.