Ekstensi Driver GPU NVIDIA untuk Linux

Ekstensi ini memasang driver GPU NVIDIA di Mesin Virtual Linux seri N. Tergantung pada keluarga VM, ekstensi ini memasang driver CUDA atau GRID. Saat Anda menginstal driver NVIDIA dengan menggunakan ekstensi ini, Anda menerima dan menyetujui ketentuan Perjanjian Lisensi End-User NVIDIA. Selama proses penginstalan, mesin virtual mungkin melakukan reboot untuk menyelesaikan pengaturan driver.

Petunjuk tentang penginstalan manual driver dan versi yang didukung saat ini tersedia. Ekstensi juga tersedia untuk menginstal driver GPU NVIDIA pada VM seri N Windows.

Catatan

Ekstensi ini akan terus menggunakan v18.x sampai kami menyelesaikan peluncuran v20.x di Q3 CY2026.

Catatan

Dengan Boot Aman diaktifkan, semua komponen boot OS (boot loader, kernel, kernel driver) harus ditandatangani oleh penerbit tepercaya (kunci yang dipercaya oleh sistem). Boot Aman tidak didukung menggunakan ekstensi Windows atau Linux. Untuk informasi selengkapnya tentang menginstal driver GPU secara manual dengan Secure Boot diaktifkan, lihat Penyiapan driver GPU Azure seri N untuk Linux.

Catatan

Ekstensi driver GPU tidak secara otomatis memperbarui driver setelah ekstensi diinstal. Jika Anda perlu pindah ke versi driver yang lebih baru, unduh dan instal driver secara manual atau hapus dan tambahkan ekstensi lagi.

Catatan

Coba bantuan VM untuk diagnostik yang lebih cepat. Kami menyarankan agar Anda menjalankan VM assist untuk Windows atau VM assist untuk Linux. Alat diagnostik berbasis skrip ini membantu Anda mengidentifikasi masalah umum yang memengaruhi Azure Agen Tamu VM dan kesehatan VM secara keseluruhan.

Jika Anda mengalami masalah performa dengan komputer virtual, sebelum menghubungi dukungan, jalankan alat-alat ini.

Prasyarat

Sistem operasi

Ekstensi ini mendukung distro OS berikut, bergantung pada dukungan driver untuk versi OS tertentu:

Pengemudi Linux: Ubuntu Linux: Red Hat Enterprise Linux
CUDA 20.04 LTS 7.9
GRID 22.04 LTS
24.04 LTS
8.2

Catatan

Driver CUDA terbaru yang didukung untuk mesin virtual seri NC saat ini adalah versi 470.82.01. Versi driver yang lebih baru tidak didukung pada kartu K80 di NC. Sementara ekstensi sedang diperbarui dengan akhir dukungan untuk NC ini, silakan pasang driver CUDA secara manual untuk kartu K80 pada seri NC.

Penting

Dokumen ini mereferensikan versi rilis Linux yang mendekati atau sudah mencapai Akhir Siklus Hidup (EOL). Harap pertimbangkan untuk memperbarui ke versi yang lebih baru.

Konektivitas internet

Ekstensi Microsoft Azure untuk Driver GPU NVIDIA mengharuskan VM target terhubung ke internet dan memiliki akses.

Skema ekstensi

JSON berikut menunjukkan skema untuk ekstensi:

{
  "name": "<myExtensionName>",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

Properti

Nama Nilai/Contoh Jenis Data
apiVersion 2015-06-15 tanggal
penerbit Microsoft. HpcCompute string
jenis NvidiaGpuDriverLinux string
typeHandlerVersion 1.6 int (integer)

Pengaturan

Semua pengaturan bersifat opsional. Perilaku default tidak memperbarui kernel jika tidak diperlukan untuk penginstalan driver, pasang driver terbaru yang didukung dan toolkit CUDA (sebagaimana berlaku).

Nama Deskripsi nilai bawaan Nilai yang valid Jenis Data
memperbarui sistem operasi Memperbarui kernel meskipun tidak diperlukan untuk penginstalan driver. salah benar, salah Boolean
versi pengandar NV: Versi dari driver GRID.
NC/ND: Versi toolkit CUDA. Driver terbaru untuk CUDA yang dipilih diinstal secara otomatis.
terbaru List versi driver yang didukung string
installCUDA Instalasi toolkit CUDA. Hanya relevan untuk VM seri NC/ND. benar benar, salah Boolean

Penyebaran

Portal Azure

Anda dapat menyebarkan ekstensi VM NVIDIA Azure di portal Azure.

  1. Di browser, buka portal Azure.

  2. Buka mesin virtual tempat Anda ingin menginstal driver.

  3. Di menu sebelah kiri, pilih Ekstensi.

    Screenshot yang memperlihatkan pemilihan Ekstensi di menu portal Azure.

  4. Pilih Tambahkan.

    Cuplikan layar yang memperlihatkan penambahan ekstensi V M untuk V M yang dipilih.

  5. Gulir untuk menemukan dan memilih Ekstensi Driver GPU NVIDIA, lalu pilih Berikutnya.

    Cuplikan layar yang menunjukkan pemilihan Ekstensi Driver NVIDIA G P U.

  6. Pilih Tinjau + buat, dan pilih Buat. Tunggu beberapa menit hingga driver terpasang.

    Cuplikan layar yang memperlihatkan memilih tombol Tinjau + buat.

  7. Verifikasi bahwa ekstensi ditambahkan ke daftar ekstensi yang diinstal.

    Cuplikan layar yang memperlihatkan ekstensi baru dalam daftar ekstensi untuk V M.

templat Azure Resource Manager

Anda dapat menggunakan templat Azure Resource Manager untuk menyebarkan ekstensi VM Azure. Templat sangat ideal saat menyebarkan satu atau beberapa mesin virtual yang memerlukan konfigurasi pasca penyebaran.

Konfigurasi JSON untuk ekstensi komputer virtual dapat disarangkan di dalam sumber daya komputer virtual atau ditempatkan di tingkat akar atau atas templat JSON Resource Manager. Penempatan konfigurasi JSON memengaruhi nilai nama dan jenis sumber daya. Untuk informasi selengkapnya, lihat Mengatur nama dan jenis untuk sumber daya anak.

Contoh berikut mengasumsikan ekstensi bersarang di dalam sumber daya komputer virtual. Saat sumber daya ekstensi disarangkan, JSON ditempatkan di objek "resources": [] dari mesin virtual.

{
  "name": "myExtensionName",
  "type": "extensions",
  "location": "[resourceGroup().location]",
  "apiVersion": "2015-06-15",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', myVM)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

PowerShell

Set-AzVMExtension
    -ResourceGroupName "myResourceGroup" `
    -VMName "myVM" `
    -Location "southcentralus" `
    -Publisher "Microsoft.HpcCompute" `
    -ExtensionName "NvidiaGpuDriverLinux" `
    -ExtensionType "NvidiaGpuDriverLinux" `
    -TypeHandlerVersion 1.6 `
    -SettingString '{ `
	}'

Azure CLI

Contoh berikut mencerminkan contoh Resource Manager dan PowerShell sebelumnya:

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6

Contoh berikut juga menambahkan dua pengaturan kustom opsional sebagai contoh untuk penginstalan driver non-default. Secara khusus, ini memperbarui kernel OS ke yang terbaru dan menginstal driver versi toolkit CUDA tertentu. Sekali lagi, perhatikan --settings adalah opsional dan default. Memperbarui kernel dapat meningkatkan waktu penginstalan ekstensi. Selain itu, memilih versi toolkit CUDA (lama) tertentu mungkin tidak selalu kompatibel dengan kernel yang lebih baru.

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6 \
  --settings '{ \
    "updateOS": true, \
    "driverVersion": "10.0.130" \
  }'

Pemecahan masalah dan dukungan

Pecahkan masalah

Anda dapat mengambil data tentang status penyebaran ekstensi dari portal Azure dan dengan menggunakan Azure PowerShell dan Azure CLI. Untuk melihat status penyebaran ekstensi untuk komputer virtual tertentu, jalankan perintah berikut:

Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName
az vm extension list --resource-group myResourceGroup --vm-name myVM -o table

Output eksekusi ekstensi dicatat ke file berikut. Lihat file ini untuk melacak status penginstalan jangka panjang serta untuk mengatasi kegagalan apa pun.

/var/log/azure/nvidia-vmext-status

Kode keluar

Kode Keluar Makna Tindakan kemungkinan
0 Operasi berhasil
1 Penggunaan ekstensi yang salah Periksa log keluaran eksekusi.
10 Layanan Integrasi Linux untuk Hyper-V dan Azure tidak tersedia atau diinstal Periksa output dari lspci.
11 GPU NVIDIA tidak ditemukan pada ukuran VM ini Gunakan ukuran VM dan OS yang didukung.
12 Opsi gambar tidak didukung
13 Ukuran VM tidak didukung Gunakan VM seri N untuk menangani implementasi.
14 Operasi tidak berhasil Periksa log keluaran eksekusi.

Masalah umum

  1. Driver GRID 16.x dan 17.x mengalami masalah penginstalan pada Azure kernel 6.11. Nvidia sedang berupaya memecahkan masalah ini, sementara itu, menurunkan kernel Azure menjadi 6,8 dengan mengikuti langkah-langkah ini. Cobalah untuk menginstal ulang driver secara manual atau dengan menggunakan ekstensi setelah menurunkan kernel ke 6.8.
// Get the installed kernel. If kernel 6.11 is installed,  downgrade it to 6.8.
uname -a

// Install  kernel 6.8. Note that kernel  6.11  is not supported.
$ sudo apt install linux-image-6.8.0-1015-azure

// Get the list of installed kernels.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'

// Uninstall any 6.11 kernels.
sudo apt purge linux-headers-6.11.0-1013-azure  linux-image-6.11.0-1013-azure  linux-modules-6.11.0-1013-azure

// Run the following command to ensure only 6.8 images, headers, and modules are installed and no other versions are present.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'

// Results from the previous command:
linux-headers-6.8.0-1015-azure
linux-image-6.8.0-1015-azure
linux-modules-6.8.0-1015-azure

// Open the grub settings and modify the GRUB_DEFAULT="0" to GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure".
$ sudo vim /etc/default/grub 
 
// The grub file will look like the following:
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure"
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=0
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX=""
///////////////////

// Update GRUB and reboot.
$ sudo update-grub && sudo update-grub2
$ sudo reboot

// Reinstall the driver after reboot.
  1. NvidiaGpuDriverLinux saat ini menginstal driver GRID terbaru 17.5 , yang mengalami masalah dengan CUDA pada seri A10. NVIDIA sedang berupaya memecahkan masalah ini, sementara itu, gunakan driver 16.5 GRID dengan meneruskan pengaturan runtime ke ekstensi.
az vm extension set  --resource-group <rg-name> --vm-name <vm-name>  --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
  "name": "NvidiaGpuDriverLinux",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.11",
    "autoUpgradeMinorVersion": true,
    "settings": {
         "driverVersion": "535.161"
    }
  }
}
  1. Versi 17.x Driver GRID tidak kompatibel pada NVv3 (NVIDIA Tesla M60). Driver GRID hingga versi 16.5 didukung. NvidiaGpuDriverLinux menginstal driver terbaru yang tidak kompatibel dengan SKU NVv3. Sebagai gantinya, gunakan pengaturan runtime berikut untuk memaksa ekstensi menginstal versi driver yang lebih lama. Untuk informasi selengkapnya tentang versi driver, lihat sumber daya GPU NVIDIA.
az vm extension set  --resource-group <rg-name> --vm-name <vm-name>  --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
  "name": "NvidiaGpuDriverLinux",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.11",
    "autoUpgradeMinorVersion": true,
    "settings": {
         "driverVersion": "535.161"
    }
  }
}
  1. Driver linux Grid 17.5 memiliki bug di mana berdampak pada beban kerja terkait CUDA. Ciri-ciri kesalahan biasanya melibatkan perangkat CUDA yang tidak tersedia. Saat Azure bekerja untuk mengatasi masalah ini, gunakan driver GRID 16.5 untuk terus menjalankan beban kerja Anda.

Dukungan

Jika Anda memerlukan bantuan lebih lanjut kapan saja dalam artikel ini, hubungi pakar Azure di forum MSDN Azure dan Stack Overflow. Atau, Anda dapat mengajukan insiden dukungan Azure. Buka Azure support dan pilih Dapatkan dukungan. Untuk informasi tentang menggunakan Azure support, baca FAQ Azure support.

Langkah berikutnya