استكشاف مشكلات ملحق GPU وإصلاحها لأجهزة GPU الظاهرية على Azure Stack Edge Pro GPU

ينطبق على:نعم ل Pro - GPU SKU Azure Stack Edge Pro - GPUنعم ل Pro 2 SKUAzure Stack Edge Pro 2نعم ل Pro R SKUAzure Stack Edge Pro R

تقدم هذه المقالة إرشادات لحل المشكلات الأكثر شيوعا التي تتسبب في فشل تثبيت ملحق GPU على GPU VM على جهاز Azure Stack Edge Pro GPU.

للحصول على خطوات التثبيت، راجع تثبيت ملحق GPU.

في الإصدارات الأقل من 2205، يثبت ملحق Linux GPU مفاتيح التوقيع القديمة: التوقيع و/أو المفتاح المطلوب مفقود

وصف الخطأ: يقوم ملحق Linux GPU بتثبيت مفاتيح التوقيع القديمة، ما يمنع تنزيل برنامج تشغيل GPU المطلوب. في هذه الحالة، سترى الخطأ التالي في سجل النظام الخاص ب Linux VM:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

الحلول المقترحة: لديك خياران للتخفيف من هذه المشكلة:

  • الخيار 1: تطبيق تحديثات Azure Stack Edge 2205 على جهازك.

  • الخيار 2: بعد إنشاء جهاز ظاهري GPU بحجم سلسلة NCasT4_v3، قم بتثبيت مفاتيح التوقيع الجديدة يدويا قبل تثبيت الملحق، ثم قم بتعيين مفاتيح التوقيع المطلوبة باستخدام الخطوات في تحديث مفتاح مستودع CUDA Linux GPG | مدونة NVIDIA الفنية.

    فيما يلي مثال يثبت مفاتيح التوقيع على جهاز ظاهري Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

فشل تثبيت ملحق GPU على Windows 2016 VHD

وصف الخطأ: هذه مشكلة معروفة في الإصدارات الأقل من 2205. يتطلب ملحق GPU TLS 1.2. في هذه الحالة، قد ترى رسالة الخطأ التالية:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

تفاصيل إضافية:

  • تحقق من سجل الضيف بحثا عن الخطأ المقترن. لتجميع سجلات الضيف، راجع تجميع سجلات الضيف للأجهزة الظاهرية على جهاز Azure Stack Edge Pro GPU.
  • على جهاز Linux الظاهري، ابحث في /var/log/waagent.log أو /var/log/azure/nvidia-vmext-status.
  • على جهاز ظاهري يعمل بنظام Windows، ابحث عن حالة الخطأ في C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • راجع سجل التنفيذ الكامل في C:\WindowsAzure\Logs\WaAppAgent.txt.

إذا فشل التثبيت أثناء تنزيل الحزمة، يشير هذا الخطأ إلى أن الجهاز الظاهري لم يتمكن من الوصول إلى الشبكة العامة لتنزيل برنامج التشغيل.

الحل المقترح: استخدم الخطوات التالية لتمكين TLS 1.2 على جهاز ظاهري يعمل بنظام Windows 2016، ثم انشر ملحق GPU.

  1. قم بتشغيل الأمر التالي داخل الجهاز الظاهري لتمكين TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. انشر القالب addGPUextensiontoVM.json لتثبيت الملحق على جهاز ظاهري موجود. يمكنك تثبيت الملحق يدويا، أو يمكنك تثبيت الملحق من مدخل Microsoft Azure.

    إشعار

    نشر الملحق هو مهمة طويلة الأمد ويستغرق حوالي 10 دقائق لإكمالها.

تثبيت برنامج تشغيل Nvidia يدويا على RHEL 7

وصف الخطأ: عند تثبيت ملحق GPU على RHEL 7 VM، قد يفشل التثبيت بسبب مشكلة تدوير الشهادة وإصدار برنامج تشغيل غير متوافق.

الحل المقترح: في هذه الحالة، لديك خياران:

  • الخيار 1: حل مشكلة تدوير الشهادة ثم تثبيت برنامج تشغيل Nvidia أقل من الإصدار 510.

    1. لحل مشكلة تدوير الشهادة، قم بتشغيل الأمر التالي:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. تثبيت برنامج تشغيل Nvidia أقل من الإصدار 510.

  • الخيار 2: نشر ملحق GPU. استخدم الإعدادات التالية عند نشر ملحق ARM:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

حجم الجهاز الظاهري ليس حجم الجهاز الظاهري لوحدة معالجة الرسومات

وصف الخطأ: يجب أن يكون حجم الجهاز الظاهري لوحدة معالجة الرسومات إما Standard_NC4as_T4_v3 أو Standard_NC8as_T4_v3. إذا تم استخدام أي حجم جهاز ظاهري آخر، فسيفشل إرفاق ملحق GPU.

الحل المقترح: إنشاء جهاز ظاهري بحجم الجهاز الظاهري Standard_NC4as_T4_v3 أو Standard_NC8as_T4_v3. لمزيد من المعلومات، راجع أحجام الأجهزة الظاهرية المدعومة لأجهزة GPU الظاهرية. للحصول على معلومات حول تحديد الحجم، راجع إنشاء GPU VMs.

نظام تشغيل الصورة غير مدعوم

وصف الخطأ: لا يدعم ملحق GPU نظام التشغيل المثبت على صورة الجهاز الظاهري.

الحل المقترح: إعداد صورة جهاز ظاهري جديدة تحتوي على نظام تشغيل يدعمه ملحق GPU.

معلمة الملحق غير صحيحة

وصف الخطأ: تم استخدام إعدادات ملحق غير صحيحة عند نشر ملحق GPU على جهاز Linux الظاهري.

الحل المقترح: تحرير ملف المعلمات قبل نشر ملحق GPU. لمزيد من المعلومات، راجع تثبيت ملحق GPU.

فشل تثبيت ملحق الجهاز الظاهري في تنزيل الحزمة

وصف الخطأ: فشل توفير الملحق أثناء تثبيت الملحق أو أثناء وجوده في حالة تمكين.

  1. تحقق من سجل الضيف بحثا عن الخطأ المقترن. لتجميع سجلات الضيف، راجع تجميع سجلات الضيف للأجهزة الظاهرية على Azure Stack Edge Pro.

    على جهاز Linux الظاهري:

    • ابحث في /var/log/waagent.log أو /var/log/azure/nvidia-vmext-status.

    في الجهاز الظاهري الذي يعمل بنظام Windows:

    • تعرف على حالة الخطأ في C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • راجع سجل التنفيذ الكامل: C:\WindowsAzure\Logs\WaAppAgent.txt.

    إذا فشل التثبيت أثناء تنزيل الحزمة، يشير هذا الخطأ إلى أن الجهاز الظاهري لم يتمكن من الوصول إلى الشبكة العامة لتنزيل برنامج التشغيل.

الحل المقترح:

  1. تمكين الحساب على منفذ متصل بالإنترنت. للحصول على إرشادات، راجع إنشاء GPU VMs.

  2. قم بإلغاء تخصيص الجهاز الظاهري عن طريق إيقاف الجهاز الظاهري في المدخل. لإيقاف الجهاز الظاهري، انتقل إلى نظرة عامة على الأجهزة>الظاهرية، وحدد الجهاز الظاهري. ثم، في صفحة خصائص الجهاز الظاهري، حدد إيقاف.

  3. إنشاء جهاز VM جديد.

فشل ملحق الجهاز الظاهري مع ظهور الخطأ dpkg is used/yum lock is used (Linux VM)

وصف الخطأ: فشل نشر ملحق وحدة معالجة الرسومات على جهاز ظاهري يعمل بنظام Linux لأن عملية أخرى كانت تستخدم dpkg أو أن عملية أخرى قد أنشأت yum lock.

الحل المقترح: لحل المشكلة، قم بتنفيذ الخطوات التالية:

  1. لمعرفة العملية التي تطبق التأمين، ابحث في سجل \var\log\azure\nvidia-vmext-status عن خطأ مثل "يتم استخدام dpkg بواسطة عملية أخرى" أو "تطبيق آخر يحمل yum lock".

  2. إما أن تنتظر حتى تنتهي العملية، أو تنهي العملية.

  3. قم بتثبيت ملحق GPU مرة أخرى.

  4. إذا فشل نشر الملحق مرة أخرى، فقم بإنشاء جهاز ظاهري جديد وتأكد من عدم وجود التأمين قبل تثبيت ملحق GPU.

الخطوات التالية

جمع سجلات الضيوف وإنشاء حزمة دعم