مشاركة عبر


ملحق برنامج تشغيل NVIDIA GPU لنظام التشغيل Linux

يثبت هذا الملحق برامج تشغيل NVIDIA GPU على الأجهزة الظاهرية (VMs) التي تعمل بنظام Linux من السلسلة N. استناداً إلى عائلة الجهاز الظاهري، يثبت الملحق برامج تشغيل CUDA أو GRID. عند تثبيت برامج تشغيل NVIDIA باستخدام هذا الملحق، فأنت توافق على شروط اتفاقية ترخيص NVIDIA End-User وتوافق عليها. أثناء عملية التثبيت، قد تتم إعادة تشغيل الجهاز الظاهري لإكمال إعداد برنامج التشغيل.

تتوفر إرشادات حول تثبيت برامج التشغيل يدوياً والإصدارات الحالية المدعومة. يتوفر ملحق أيضا لتثبيت برامج تشغيل NVIDIA GPU على أجهزة Windows N-series الظاهرية.

إشعار

بالنسبة لأجهزة NVadsA10v5 الافتراضية، سيستمر هذا الامتداد في استخدام v17.x حتى ننهي طرح v18.x في منطقتي Azure الحكومية والصين في مارس 2026.

إشعار

مع تمكين التمهيد الآمن، يجب توقيع جميع مكونات تمهيد نظام التشغيل (محمل التمهيد، النواة، برامج تشغيل النواة) من قبل الناشرين الموثوق بهم (المفتاح الموثوق به من قبل النظام). التمهيد الآمن غير مدعوم باستخدام ملحقات Windows أو Linux. لمزيد من المعلومات حول تثبيت برامج تشغيل GPU يدويا مع تمكين التمهيد الآمن، راجع إعداد برنامج تشغيل GPU من سلسلة Azure N لنظام Linux.

إشعار

لا تقوم ملحقات برنامج تشغيل GPU بتحديث برنامج التشغيل تلقائيا بعد تثبيت الملحق. إذا كنت بحاجة إلى الانتقال إلى إصدار برنامج تشغيل أحدث، فقم إما بتنزيل برنامج التشغيل وتثبيته يدويا أو إزالته وإضافة الملحق مرة أخرى.

إشعار

جرب مساعدة VM للحصول على تشخيصات أسرع. نوصي بتشغيل مساعدة VM لويندوز أو VM Assist لنظام لينكس. تساعدك أدوات التشخيص المستندة إلى البرنامج النصي هذه على تحديد المشكلات الشائعة التي تؤثر على عامل ضيف جهاز Azure الظاهري وسلامة الجهاز الظاهري بشكل عام.

إذا كنت تواجه مشاكل في الأداء مع الأجهزة الافتراضية، قبل التواصل مع الدعم، قم بتشغيل هذه الأدوات.

المتطلبات الأساسية

نظام التشغيل

يدعم هذا الملحق توزيعات نظام التشغيل التالية، اعتماداً على دعم برنامج التشغيل لإصدار نظام تشغيل معين:

برنامج التشغيل Linux (Ubuntu) لينكس: ريد هات إنتربرايز لينكس
كودا 20.04-LTS 7.9
شبكة 22.04 لتر
24.04 لتر
8.2

إشعار

أحدث برامج تشغيل CUDA المدعومة للأجهزة الظاهرية من سلسلة NC حالياً هي 470.82.01. إصدارات برنامج التشغيل الأحدث غير معتمدة على بطاقات K80 في NC. أثناء تحديث الملحق مع هذا الطرف من الدعم لـ NC، قم بتثبيت برامج تشغيل CUDA يدوياً لبطاقات K80 على سلسلة NC.

هام

يشير هذا المستند إلى إصدار إصدار من Linux يقترب من أو في نهاية العمر الافتراضي (EOL). يرجى التفكير في التحديث إلى إصدار أحدث.

الاتصال بالإنترنت

يتطلب تشغيل ملحق Microsoft Azure لبرامج تشغيل NVIDIA GPU أن يكون الجهاز الظاهري الهدف متصلاً بالإنترنت ولديه حق الوصول إليه.

مخطط الملحق

يعرض تنسيق JSON التالي مخطط هذا الملحق:

{
  "name": "<myExtensionName>",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

خصائص

الاسم القيمة/المثال نوع البيانات
apiVersion 2015-06-15 تاريخ
ناشر Microsoft.HpcCompute سلسلة
النوع NvidiaGpuDriverLinux سلسلة
typeHandlerالإصدار 1.6 العدد الصحيح

إعدادات

جميع الإعدادات اختيارية. السلوك الافتراضي هو عدم تحديث kernel إذا لم يكن مطلوباً لتثبيت برنامج التشغيل وتثبيت أحدث برنامج تشغيل معتمد، ومجموعة أدوات CUDA (حسب الاقتضاء).

الاسم الوصف القيمة الافتراضية قيم صحيحة نوع البيانات
updateOS قم بتحديث kernel حتى لو لم يكن مطلوباً لتثبيت برنامج التشغيل. true صحيح، خطأ منطقيه
إصدار برنامج التشغيل NV: إصدار برنامج تشغيل GRID.
إصدار مجموعة أدوات NC/ND: CUDA. يتم تثبيت أحدث برامج التشغيل لـ CUDA المختار تلقائياً.
الأحدث قائمة إصدارات برامج التشغيل المدعومة سلسلة
installCUDA تثبيت مجموعة أدوات CUDA. ذات الصلة فقط بالأجهزة الظاهرية لسلسلة NC / ND. صحيح صحيح، خطأ منطقيه

التوزيع

مدخل Azure

يمكنك نشر ملحقات الجهاز الظاهري Azure NVIDIA في مدخل Microsoft Azure.

  1. في المتصفح، انتقل إلى مدخل Microsoft Azure.

  2. انتقل إلى الجهاز الظاهري الذي تريد تثبيت برنامج التشغيل عليه.

  3. في القائمة اليسرى، حدد Extensions.

    لقطة شاشة توضح تحديد Extensions في قائمة مدخل Microsoft Azure.

  4. حدد إضافة.

    لقطة شاشة تعرض إضافة ملحق V M ل V M المحدد.

  5. قم بالتمرير للعثور على ملحق برنامج تشغيل NVIDIA GPU وتحديده، ثم حدد التالي.

    لقطة شاشة توضح تحديد NVIDIA G P U Driver Extension.

  6. حدد Review + create، وحدد Create. انتظر بضع دقائق حتى يتم توزيع برنامج التشغيل.

    لقطة شاشة تظهر تحديد الزر Review + create.

  7. تحقق من إضافة الملحق إلى قائمة الملحقات المثبتة.

    لقطة شاشة تعرض الملحق الجديد في قائمة الملحقات ل V M.

قالب Azure Resource Manager

يمكنك استخدام قوالب Azure Resource Manager لتوزيع ملحقات Azure VM. تعد القوالب مثالية عند توزيع جهاز ظاهري واحد أو أكثر يشترط التكوين بعد التوزيع.

يمكن تضمين تكوين JSON المخصص لملحق الجهاز الظاهري داخل مورد الجهاز الظاهري أو وضعه في الجذر أو المستوى العلوي لقالب Resource Manager JSON. يؤثر موضع تكوين JSON على قيمة اسم المورد ونوعه. لمزيد من المعلومات، راجع تعيين الاسم والنوع للموارد التابعة.

يفترض المثال التالي أن الملحق متداخل داخل مورد الجهاز الظاهري. عندما يكون مورد الملحق مضمناً، يتم وضع JSON في عنصر "resources": [] في الجهاز الظاهري.

{
  "name": "myExtensionName",
  "type": "extensions",
  "location": "[resourceGroup().location]",
  "apiVersion": "2015-06-15",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', myVM)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.6",
    "autoUpgradeMinorVersion": true,
    "settings": {
    }
  }
}

PowerShell

Set-AzVMExtension
    -ResourceGroupName "myResourceGroup" `
    -VMName "myVM" `
    -Location "southcentralus" `
    -Publisher "Microsoft.HpcCompute" `
    -ExtensionName "NvidiaGpuDriverLinux" `
    -ExtensionType "NvidiaGpuDriverLinux" `
    -TypeHandlerVersion 1.6 `
    -SettingString '{ `
	}'

Azure CLI

يعكس المثال التالي أمثلة Resource Manager وPowerShell السابقة:

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6

يضيف المثال التالي أيضاً إعدادين مخصصين اختياريين كمثال لتثبيت برنامج التشغيل غير الافتراضي. على وجه التحديد، يقوم بتحديث kernel الخاصة بنظام التشغيل إلى أحدث إصدار، ويقوم بتثبيت برنامج تشغيل محدد لمجموعة أدوات CUDA. مرة أخرى، لاحظ أن العناصر --settings اختيارية وافتراضية. قد يؤدي تحديث kernel إلى زيادة الوقت المستغرق لتثبيت الملحق. علاوة على ذلك، قد لا يكون اختيار إصدار محدد (أقدم) من مجموعة أدوات CUDA متوافقاً دائماً مع kernel الأحدث.

az vm extension set \
  --resource-group myResourceGroup \
  --vm-name myVM \
  --name NvidiaGpuDriverLinux \
  --publisher Microsoft.HpcCompute \
  --version 1.6 \
  --settings '{ \
    "updateOS": true, \
    "driverVersion": "10.0.130" \
  }'

استكشاف الأخطاء وإصلاحها والدعم

استكشاف الأخطاء وإصلاحها

يمكنك استرداد البيانات حول حالة عمليات توزيع الملحقات عبر مدخل Microsoft Azure ومن خلال استخدام Azure PowerShell وAzure CLI. للاطلاع على حالة توزيع ملحقات أحد الأجهزة الظاهرية المعينة، قم بتشغيل الأمر التالي:

Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName
az vm extension list --resource-group myResourceGroup --vm-name myVM -o table

يتم تسجيل إخراج تنفيذ الملحق إلى الملف التالي. راجع هذا الملف لتعقب حالة أي تثبيت طويل الأمد ولاستكشاف أي حالات فشل وإصلاحها.

/var/log/azure/nvidia-vmext-status

التعليمات البرمجية للخروج

رمز الإنهاء المعنى الإجراء الممكن اتخاذه
1 عملية ناجحة
1 الاستخدام غير الصحيح للملحق تحقق من سجل إخراج التنفيذ.
10 خدمات تكامل Linux لـ Hyper-V وAzure غير متوفرة أو مثبتة تحقق من إخراج lspci.
11 NVIDIA GPU غير موجود على حجم الجهاز الظاهري هذا استخدم حجم الجهاز الظاهري ونظام التشغيل المدعومين.
12 عرض الصور غير مدعوم
13 حجم الجهاز الظاهري غير مدعوم استخدم جهازاً ظاهرياً من الفئة N للنشر.
14 عملية غير ناجحة تحقق من سجل إخراج التنفيذ.

المشكلات المعروفة

  1. تواجه برنامج تشغيل GRID 16.x و17.x مشكلات في التثبيت على Azure kernel 6.11. تعمل Nvidia على حل هذه المشكلة، وفي الوقت نفسه، تخفيض نواة Azure إلى 6.8 باتباع هذه الخطوات. حاول إعادة تثبيت برامج التشغيل يدويا أو باستخدام ملحق بعد تخفيض النواة إلى 6.8.
// Get the installed kernel. If kernel 6.11 is installed,  downgrade it to 6.8.
uname -a

// Install  kernel 6.8. Note that kernel  6.11  is not supported.
$ sudo apt install linux-image-6.8.0-1015-azure

// Get the list of installed kernels.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'

// Uninstall any 6.11 kernels.
sudo apt purge linux-headers-6.11.0-1013-azure  linux-image-6.11.0-1013-azure  linux-modules-6.11.0-1013-azure

// Run the following command to ensure only 6.8 images, headers, and modules are installed and no other versions are present.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'

// Results from the previous command:
linux-headers-6.8.0-1015-azure
linux-image-6.8.0-1015-azure
linux-modules-6.8.0-1015-azure

// Open the grub settings and modify the GRUB_DEFAULT="0" to GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure".
$ sudo vim /etc/default/grub 
 
// The grub file will look like the following:
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure"
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=0
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX=""
///////////////////

// Update GRUB and reboot.
$ sudo update-grub && sudo update-grub2
$ sudo reboot

// Reinstall the driver after reboot.
  1. NvidiaGpuDriverLinux يقوم حاليا بتثبيت أحدث 17.5 برامج تشغيل GRID، والتي تواجه مشكلات مع CUDA على سلسلة A10. تعمل NVIDIA على حل هذه المشكلة، وفي الوقت نفسه، استخدم برنامج تشغيل 16.5 GRID عن طريق تمرير إعداد وقت التشغيل إلى الملحق.
az vm extension set  --resource-group <rg-name> --vm-name <vm-name>  --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
  "name": "NvidiaGpuDriverLinux",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.11",
    "autoUpgradeMinorVersion": true,
    "settings": {
         "driverVersion": "535.161"
    }
  }
}
  1. إصدار 17.x برنامج تشغيل GRID غير متوافق على NVv3 (NVIDIA Tesla M60). يتم دعم برامج تشغيل GRID حتى الإصدار 16.5 . NvidiaGpuDriverLinux تثبيت أحدث برامج التشغيل غير المتوافقة على NVv3 SKU. بدلا من ذلك، استخدم إعدادات وقت التشغيل التالية لفرض الملحق لتثبيت إصدار قديم من برنامج التشغيل. لمزيد من المعلومات حول إصدارات برنامج التشغيل، راجع موارد NVIDIA GPU.
az vm extension set  --resource-group <rg-name> --vm-name <vm-name>  --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
  "name": "NvidiaGpuDriverLinux",
  "type": "extensions",
  "apiVersion": "2015-06-15",
  "location": "<location>",
  "dependsOn": [
    "[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
  ],
  "properties": {
    "publisher": "Microsoft.HpcCompute",
    "type": "NvidiaGpuDriverLinux",
    "typeHandlerVersion": "1.11",
    "autoUpgradeMinorVersion": true,
    "settings": {
         "driverVersion": "535.161"
    }
  }
}
  1. يحتوي برنامج تشغيل شبكة 17.5 linux على خطأ حيث يؤثر على حمل العمل المتعلق ب CUDA. يتضمن توقيع الخطأ عادة أجهزة CUDA غير متوفرة. أثناء عمل Azure على حل هذه المشكلة، استخدم برنامج تشغيل GRID 16.5 لمتابعة تشغيل حمل العمل الخاص بك.

الدعم

إذا كنت بحاجة إلى مزيد من المساعدة في أي وقت من هذه المقالة، فاتصل بخبراء Azure على منتديات MSDN Azure و Stack Overflow. بدلاً من ذلك، يمكنك تقديم حدث دعم Azure. انتقل إلى دعم Azure وحدد الحصول على الدعم. للحصول على معلومات حول استخدام دعم Azure، اقرأ الأسئلة المتداولة حول دعم Azure.

الخطوات التالية