تثبيت برامج تشغيل NVIDIA GPU على الأجهزة الظاهرية من السلسلة N التي تعمل بنظام التشغيل Linux

تنبيه

تشير هذه المقالة إلى CentOS، وهو توزيع Linux يقترب من حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك. لمزيد من المعلومات، راجع إرشادات نهاية العمر الافتراضي CentOS.

ينطبق على: ✔️ أجهزة Linux الظاهرية

للاستفادة من إمكانات GPU الخاصة بالأجهزة الظاهرية من السلسلة Azure N المدعومة بوحدات NVIDIA GPU، يجب تثبيت برامج تشغيل وحدة NVIDIA GPU. يقوم ملحق برنامج تشغيل NVIDIA GPU بتثبيت برامج تشغيل NVIDIA CUDA أو GRID المناسبة على جهاز ظاهري من السلسلة N. قم بتثبيت الملحق أو إدارته باستخدام مدخل Azure أو أدوات مثل قوالب Azure CLI أو Azure Resource Manager. راجع وثائق ملحق برنامج تشغيل NVIDIA GPU للاطلاع على التوزيعات المدعومة وخطوات النشر.

إذا اخترت تثبيت برامج تشغيل NVIDIA GPU يدويا، فستوفر هذه المقالة التوزيعات وبرامج التشغيل وخطوات التثبيت والتحقق المدعومة. تتوفر أيضًا معلومات إعداد برنامج التشغيل يدويًا لأجهزة Windows الظاهرية.

للحصول على مواصفات الجهاز الظاهري من السلسلة N وسعات التخزين وتفاصيل القرص، راجع أحجام الجهاز الظاهري لـ GPU Linux.

التوزيعات وبرامج التشغيل المدعومة

تنبيه

تشير هذه المقالة إلى CentOS، وهو توزيع Linux يقترب من حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك.

برامج تشغيل NVIDIA CUDA

للحصول على أحدث برامج تشغيل CUDA وأنظمة التشغيل المدعومة، تفضل بزيارة موقع NVIDIA على الويب. تأكد من تثبيت أحدث برامج تشغيل CUDA المدعومة أو ترقيتها لتوزيعك.

إشعار

أحدث برامج تشغيل CUDA المدعومة لأجهزة SKU الظاهرية الأصلية من سلسلة NC هي حاليا 470.82.01. إصدارات برنامج التشغيل الأحدث غير معتمدة على بطاقات K80 في NC.

إشعار

تدعم أجهزة Azure NVads A10 v5 الظاهرية فقط إصدارات GRID 14.1(510.73) أو إصدارات برامج تشغيل أعلى. برنامج تشغيل vGPU ل A10 SKU هو برنامج تشغيل موحد يدعم كل من أحمال عمل الرسومات والحوسبة.

تلميح

كبديل لتثبيت برنامج تشغيل CUDA يدويًا على جهاز Linux الظاهري، يمكنك نشر صورة الجهاز الظاهري لعلوم بيانات Azure. تقوم إصدارات DSVM لـ Ubuntu 16.04 LTS أو CentOS 7.4 بتثبت برامج تشغيل NVIDIA CUDA، ومكتبة الشبكة العصبية العميقة CUDA، وغيرها من الأدوات بشكلٍ مسبق.

NVIDIA GRID drivers

تقوم Microsoft بإعادة توزيع مثبتات برامج تشغيل NVIDIA GRID للأجهزة الظاهرية من السلسلة NV وNVv3 المستخدمة كمحطات عمل افتراضية أو للتطبيقات الظاهرية. قم بتثبيت برامج تشغيل GRID هذه فقط على أجهزة Azure NV الظاهرية، وعلى أنظمة التشغيل المسردة في الجدول التالي فقط. تتضمن برامج التشغيل هذه ترخيص برنامج GRID Virtual GPU في Azure. لا تحتاج إلى إعداد خادم ترخيص برنامج NVIDIA vGPU.

لا تعمل برامج تشغيل GRID التي تم إعادة توزيعها بواسطة Azure على معظم الأجهزة الظاهرية من السلسلة غير NV مثل NC وNCv2 وNCv3 وND وNDv2-series VMs ولكنها تعمل على سلسلة NCasT4v3.

لمزيد من المعلومات حول إصدارات vGPU وفرع برنامج التشغيل المحددة، تفضل بزيارة موقع NVIDIA على الويب.

التوزيع برنامج التشغيل
Ubuntu 20.04 LTS، 22.04 LTS

Red Hat Enterprise Linux 7.9، 8.6، 8.8

SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5

Rocky Linux 8.4
NVIDIA vGPU 16.3، فرع برنامج التشغيل R535 (.exe)

NVIDIA vGPU 16.2، فرع برنامج التشغيل R535(.exe)

إشعار

بالنسبة إلى الأجهزة الظاهرية ل Azure NVads A10 v5، نوصي العملاء بأن يكونوا دائما على أحدث إصدار من برنامج التشغيل. أحدث فرع لبرنامج تشغيل NVIDIA الرئيسي (n) هو التوافق مع الإصدارات السابقة من الإصدار الرئيسي (n-1) فقط. على سبيل المثال، vGPU 17.x متوافق مع الإصدارات السابقة مع vGPU 16.x فقط. قد ترى أي أجهزة ظاهرية لا تزال runnig n-2 أو أقل فشل برنامج التشغيل عند طرح أحدث فرع لمحرك الأقراص إلى مضيفي Azure.

NVs_v3 الأجهزة الظاهرية تدعم إصدار برنامج تشغيل vGPU 16 أو أقل فقط.

تفضل بزيارة GitHub للحصول على القائمة الكاملة لجميع روابط برامج تشغيل Nvidia GRID السابقة.

تحذير

تثبيت برامج الجهات الخارجية على منتجات Red Hat قد يؤثر على شروط دعم Red Hat. راجع مقالة قاعدة معارف Red Hat.

تثبيت برامج تشغيل CUDA على الأجهزة الظاهرية من السلسلة N

فيما يلي خطوات تثبيت برامج تشغيل CUDA من مجموعة أدوات NVIDIA CUDA على الأجهزة الظاهرية من السلسلة N.

يمكن لمطوري C و C ++ اختياريًا تثبيت مجموعة الأدوات الكاملة لإنشاء تطبيقات مسرعة لـ GPU. لمزيد من المعلومات، راجع دليل تثبيت CUDA.

لتثبيت برامج تشغيل CUDA، قم بإجراء اتصال SSH بكل جهاز ظاهري. للتحقق من أن النظام يحتوي على GPU قادرة على CUDA، قم بتشغيل الأمر التالي:

lspci | grep -i NVIDIA

الإخراج مشابه للمثال التالي (يظهر بطاقة NVIDIA Tesla K80):

إخراج أمر lspci

يسرد lspci أجهزة PCIe على الجهاز الظاهري، بما في ذلك InfiniBand NIC ووحدات GPU، إن وجدت. إذا لم يرجع lspci بنجاح، فقد تحتاج إلى تثبيت LIS على CentOS/RHEL.

ثم قم بتشغيل أوامر التثبيت الخاصة بتوزيعك.

Ubuntu

يحزم Ubuntu برامج تشغيل NVIDIA الخاصة. تأتي برامج التشغيل هذه مباشرة من NVIDIA ويتم حزمها ببساطة بواسطة Ubuntu بحيث يمكن إدارتها تلقائيا من قبل النظام. يمكن أن يؤدي تنزيل برامج التشغيل وتثبيتها من مصدر آخر إلى نظام معطل. علاوة على ذلك، يتطلب تثبيت برامج تشغيل الجهات الخارجية خطوات إضافية على الأجهزة الظاهرية مع تمكين TrustedLaunch والتمهيد الآمن. وهي تتطلب من المستخدم إضافة مفتاح مالك جهاز جديد للنظام للتمهيد. يتم توقيع برامج التشغيل من Ubuntu بواسطة Canonical وستعمل مع التمهيد الآمن.

  1. تثبيت ubuntu-drivers الأداة المساعدة:

    sudo apt update && sudo apt install -y ubuntu-drivers-common
    
  2. تثبيت أحدث برامج تشغيل NVIDIA:

    sudo ubuntu-drivers install
    

    أعد تشغيل الجهاز الظاهري بعد تثبيت برنامج تشغيل GPU.

  3. قم بتنزيل وتثبيت مجموعة أدوات CUDA من NVIDIA:

    إشعار

    يوضح المثال مسار حزمة CUDA ل Ubuntu 22.04 LTS. استبدل المسار الخاص بالإصدار الذي تخطط لاستخدامه.

    تفضل بزيارة مركز تنزيل NVIDIA أو صفحة موارد NVIDIA CUDA للحصول على المسار الكامل الخاص بكل إصدار.

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
    sudo apt install -y ./cuda-keyring_1.1-1_all.deb
    sudo apt update
    sudo apt -y install cuda-toolkit-12-3
    

    قد يستغرق التثبيت عدة دقائق.

  4. تحقق من التعرف على وحدة معالجة الرسومات بشكل صحيح (قد تحتاج إلى إعادة تشغيل الجهاز الظاهري لكي تسري تغييرات النظام):

    nvidia-smi
    

تحديثات برنامج تشغيل NVIDIA

نوصي بتحديث برامج تشغيل NVIDIA بشكل دوري بعد التوزيع.

sudo apt update
sudo apt full-upgrade

CentOS أو Red Hat Enterprise Linux

  1. قم بتحديث النواة (مستحسن). إذا اخترت عدم تحديث النواة، فتأكد من kernel-develأن إصدارات و dkms مناسبة لنواة الخاص بك.

    sudo yum install kernel kernel-tools kernel-headers kernel-devel
    sudo reboot
    
  2. قم بتثبيت أحدث خدمات تكامل Linux لـ Hyper-V وAzure. تحقق مما إذا كان LIS مطلوبًا من خلال التحقق من نتائج lspci. إذا كانت جميع أجهزة GPU مدرجة كما هو متوقع، فلن يكون تثبيت LIS مطلوبا.

    ينطبق LIS على Red Hat Enterprise Linux وCentOS وKernel المتوافق مع Oracle Linux Red Hat Kernel 5.2-5.11 و6.0-6.10 و7.0-7.7. راجع وثائق Linux Integration Services لمزيد من التفاصيل. تخطي هذه الخطوة إذا كنت تخطط لاستخدام CentOS/RHEL 7.8 (أو الإصدارات الأحدث) حيث لم يعد LIS مطلوبًا لهذه الإصدارات.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
  3. أعد الاتصال بالجهاز الظاهري وتابع التثبيت باستخدام الأوامر التالية:

    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
    sudo yum clean all
    sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
    

    قد يستغرق التثبيت عدة دقائق.

    إشعار

    قم بزيارة Fedora و Nvidia CUDA repo لاختيار الحزمة الصحيحة لإصدار CentOS أو RHEL الذي تريد استخدامه.

على سبيل المثال، تحتاج CentOS 8 و RHEL 8 إلى الخطوات التالية.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers
  1. لتثبيت مجموعة أدوات CUDA الكاملة اختياريًا، اكتب:

    sudo yum install cuda
    

    إشعار

    إذا رأيت رسالة خطأ تتعلق بالحزم المفقودة مثل نظام الملفات vulkan، فقد تحتاج إلى تحرير /etc/yum.repos.d/rh-cloud، والبحث عن عدد الدورات في الدقيقة الاختياري وتعيينه ممكنا إلى 1

  2. أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.

التحقق من تثبيت برنامج التشغيل

للاستعلام عن حالة جهاز GPU، قم بإجراء اتصال SSH بالجهاز الظاهري وتشغيل الأداة المساعدة لسطر الأوامر nvidia-smi المثبتة مع برنامج التشغيل.

إذا تم تثبيت برنامج التشغيل، فإن Nvidia SMI يسرد GPU-Util ك 0٪ حتى تقوم بتشغيل حمل عمل GPU على الجهاز الظاهري. قد يختلف إصدار برنامج التشغيل وتفاصيل GPU عن تلك المعروضة.

حالة جهاز NVIDIA

اتصال شبكة RDMA

يمكن تمكين اتصال شبكة RDMA على الأجهزة الظاهرية من السلسلة N القادرة على RDMA مثل NC24r التي تم نشرها في نفس مجموعة التوفر أو في مجموعة موضع واحدة في مجموعة مقياس جهاز ظاهري (VM). تدعم شبكة RDMA حركة مرور واجهة تمرير الرسائل (MPI) للتطبيقات التي تعمل باستخدام Intel MPI 5.x أو إصدار أحدث:

التوزيعات

نشر الأجهزة الظاهرية من السلسلة N القادرة على RDMA من إحدى الصور في Azure Marketplace التي تدعم اتصال RDMA على الأجهزة الظاهرية من السلسلة N:

  • Ubuntu 16.04 LTS - تكوين برامج تشغيل RDMA على الجهاز الظاهري والتسجيل باستخدام Intel لتنزيل Intel MPI:

    1. تثبيت dapl و rdmacm و ibverbs و mlx4

      sudo apt-get update
      
      sudo apt-get install libdapl2 libmlx4-1
      
      
    2. في /etc/waagent.conf، قم بتمكين RDMA عن طريق إلغاء التعليق على بنود التكوين التالية. تحتاج إلى الوصول إلى الجذر لتحرير هذا الملف.

      OS.EnableRDMA=y
      
      OS.UpdateRdmaDriver=y
      
    3. قم بإضافة أو تغيير إعدادات الذاكرة التالية في KB بالملف /etc/security/limits.conf. تحتاج إلى الوصول إلى الجذر لتحرير هذا الملف. لأغراض الاختبار، يمكنك تعيين memlock إلى غير محدود. على سبيل المثال: <User or group name> hard memlock unlimited.

      <User or group name> hard    memlock <memory required for your application in KB>
      
      <User or group name> soft    memlock <memory required for your application in KB>
      
    4. قم بتثبيت مكتبة Intel MPI. إما شراء وتنزيل المكتبة من Intel أو تنزيل إصدار التقييم المجاني.

      wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
      

      يتم دعم أوقات تشغيل Intel MPI 5.x فقط.

      للحصول على خطوات التثبيت، راجع دليل تثبيت مكتبة التعليمات البرمجية Intel MPI.

    5. تمكين ptrace لعمليات غير ذات صلة بالجذر ومصحح الأخطاء (اللازمة لأحدث إصدارات Intel MPI).

      echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
      
  • 7.4 HPC القائمة على CentOS - يتم تثبيت برامج تشغيل RDMA وIntel MPI 5.1 على الجهاز الظاهري.

  • HPC القائم على CentOS - CentOS-HPC 7.6 فالأحدث (لـSKUs حيث يتم دعم InfiniBand عبر SR-IOV). تحتوي هذه الصور على مكتبات Mellanox OFED وMPI مثبتة مسبقًا.

إشعار

يتم دعم بطاقات CX3-Pro فقط من خلال إصدارات LTS من Mellanox OFED. استخدم إصدار LTS Mellanox OFED (4.9-0.1.7.0) على الأجهزة الظاهرية من السلسلة N مع بطاقات ConnectX3-Pro. لمزيد من المعلومات، راجع برامج تشغيل Linux.

أيضًا، تحتوي بعض أحدث صور HPC Azure Marketplace على Mellanox OFED 5.1 والإصدارات الأحدث، والتي لا تدعم بطاقات ConnectX3-Pro. تحقق من إصدار Mellanox OFED في صورة HPC قبل استخدامه على الأجهزة الظاهرية مع بطاقات ConnectX3-Pro.

الصور التالية هي أحدث صور CentOS-HPC التي تدعم بطاقات ConnectX3-Pro:

  • OpenLogic:CentOS-HPC:7.6:7.6.2020062900
  • OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
  • OpenLogic:CentOS-HPC:7.7:7.7.2020062600
  • OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
  • OpenLogic:CentOS-HPC:8_1:8.1.2020062400
  • OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

تثبيت برامج تشغيل GRID على الأجهزة الظاهرية من سلسلة NV أو NVv3

لتثبيت برامج تشغيل NVIDIA GRID على الأجهزة الظاهرية من سلسلة NV أو NVv3، قم بإجراء اتصال SSH بكل جهاز ظاهري واتبع الخطوات الخاصة بتوزيع Linux الخاص بك.

Ubuntu

  1. تشغيل الأمر lspci. تحقق من أن بطاقة NVIDIA M60 أو البطاقات مرئية كأجهزة PCI.

  2. قم بتثبيت التحديثات.

    sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get dist-upgrade -y
    sudo apt-get install build-essential ubuntu-desktop -y
    sudo apt-get install linux-azure -y
    
  3. قم بتعطيل برنامج تشغيل نواة Nouveau، وهو غير متوافق مع برنامج تشغيل NVIDIA. (استخدم برنامج تشغيل NVIDIA فقط على NV أو NVv2 VMs.) لتعطيل برنامج التشغيل، قم بإنشاء ملف باسم /etc/modprobe.dnouveau.conf بالمحتويات التالية:

    blacklist nouveau
    blacklist lbm-nouveau
    
  4. أعد تشغيل الجهاز الظاهري وأعد الاتصال. إنهاء خادم X:

    sudo systemctl stop lightdm.service
    
  5. تحميل برنامج تشغيل GRID وتثبيته:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. عندما يتم سؤالك عما إذا كنت تريد تشغيل الأداة المساعدة nvidia-xconfig لتحديث ملف تكوين X، حدد نعم.

  7. بعد اكتمال التثبيت، انسخ /etc/nvidia/gridd.conf.template إلى ملف gridd.conf جديد في الموقع /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. إضافة الآتي إلى /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. قم بإزالة ما يلي من /etc/nvidia/gridd.conf إذا كان موجودًا:

    FeatureType=0
    
  10. أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.

تثبيت برنامج تشغيل GRID على Ubuntu مع تمكين التمهيد الآمن

لا تقدم عملية تثبيت برنامج تشغيل GRID أي خيارات لتخطي إنشاء الوحدة النمطية kernel وتثبيتها وتحديد مصدر مختلف لوحدات kernel الموقعة، لذلك يجب تعطيل التمهيد الآمن في أجهزة Linux الظاهرية من أجل استخدامها مع GRID، بعد تثبيت وحدات kernel الموقعة.

CentOS أو Red Hat Enterprise Linux

  1. قم بتحديث النواة و DKMS (مستحسن). إذا اخترت عدم تحديث النواة، فتأكد من أن إصدارات kernel-devel و dkms مناسبة لها.

    sudo yum update
    sudo yum install kernel-devel
    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum install dkms
    sudo yum install hyperv-daemons
    
  2. قم بتعطيل برنامج تشغيل نواة Nouveau، وهو غير متوافق مع برنامج تشغيل NVIDIA. (استخدم برنامج تشغيل NVIDIA على الأجهزة الظاهرية من السلسلة NV أو NV3 فقط.) للقيام بذلك، قم بإنشاء ملف باسم /etc/modprobe.d يتضمن nouveau.conf المحتويات التالية:

    blacklist nouveau
    blacklist lbm-nouveau
    
  3. أعد تشغيل الجهاز الظاهري وأعد الاتصال وقم بتثبيت أحدث خدمات تكامل Linux لـHyper-V وAzure. تحقق مما إذا كان LIS مطلوبًا من خلال التحقق من نتائج lspci. إذا كانت جميع أجهزة GPU مدرجة كما هو متوقع، فلن يكون تثبيت LIS مطلوبا.

    تخطي هذه الخطوة إذا كنت تخطط لاستخدام CentOS/RHEL 7.8 (أو الإصدارات الأحدث) حيث لم يعد LIS مطلوبًا لهذه الإصدارات.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
    
  4. أعد الاتصال بالجهاز الظاهري وقم بتشغيل الأمر lspci. تحقق من أن بطاقة NVIDIA M60 أو البطاقات مرئية كأجهزة PCI.

  5. تحميل برنامج تشغيل GRID وتثبيته:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. عندما يتم سؤالك عما إذا كنت تريد تشغيل الأداة المساعدة nvidia-xconfig لتحديث ملف تكوين X، حدد نعم.

  7. بعد اكتمال التثبيت، انسخ /etc/nvidia/gridd.conf.template إلى ملف gridd.conf جديد في الموقع /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. إضافة سطرين إلى /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. إزالة سطر واحد من /etc/nvidia/gridd.conf إذا كان موجودا:

    FeatureType=0
    
  10. أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.

التحقق من تثبيت برنامج التشغيل

للاستعلام عن حالة جهاز GPU، قم بإجراء اتصال SSH بالجهاز الظاهري وتشغيل الأداة المساعدة لسطر الأوامر nvidia-smi المثبتة مع برنامج التشغيل.

إذا تم تثبيت برنامج التشغيل، سيقوم Nvidia SMI بإدراج GPU-Util ك 0٪ حتى تقوم بتشغيل حمل عمل GPU على الجهاز الظاهري. قد يختلف إصدار برنامج التشغيل وتفاصيل GPU عن تلك المعروضة.

لقطة شاشة توضح الإخراج عند الاستعلام عن حالة جهاز GPU.

خادم X11

إذا كنت بحاجة إلى خادم X11 للاتصالات البعيدة بجهاز ظاهري من السلسلة NV أو NVv2، فمن المستحسن استخدام x11vnc لأنه يسمح بتسريع الأجهزة للرسومات. يجب إضافة BusID الخاص بجهاز M60 يدويًا إلى ملف تكوين X11 (عادة، etc/X11/xorg.conf). أضف قسم "Device" مشابه لما يلي:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

بالإضافة إلى ذلك، قم بتحديث قسم "Screen" الخاص بك لاستخدام هذا الجهاز.

يمكن العثور على BusID العشري عن طريق التشغيل

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

يمكن أن يتغير BusID عند إعادة تخصيص جهاز ظاهري أو إعادة تشغيله. لذلك، قد تحتاج إلى إنشاء برنامج نصي لتحديث BusID في تكوين X11 عند إعادة تشغيل جهاز ظاهري. على سبيل المثال، قم بإنشاء برنامج نصي باسم busidupdate.sh (أو اسم آخر تختاره) بمحتويات مشابهة لما يلي:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

ثم قم بإنشاء إدخال للبرنامج النصي للتحديث الخاص بك في /etc/rc.d/rc3.d بحيث يتم استدعاء البرنامج النصي كجذر عند التمهيد.

استكشاف الأخطاء وإصلاحها

  • يمكنك تعيين وضع الثبات باستخدام nvidia-smi بحيث يكون إخراج الأمر أسرع عندما تحتاج إلى الاستعلام عن البطاقات. لتعيين وضع الثبات، نفذ nvidia-smi -pm 1. لاحظ أنه إذا تمت إعادة تشغيل الجهاز الظاهري، فسيختفي إعداد الوضع. يمكنك دائمًا برمجة إعداد الوضع لتنفيذه عند بدء التشغيل.
  • إذا قمت بتحديث برامج تشغيل NVIDIA CUDA إلى أحدث إصدار ووجدت أن اتصال RDMA لم يعد يعمل، فأعد تثبيت برامج تشغيل RDMA لإعادة إنشاء هذا الاتصال.
  • أثناء تثبيت LIS، إذا لم يتم دعم إصدار معين من CentOS/RHEL OS (أو النواة) لـLIS، فسيتم طرح خطأ «إصدار النواة غير مدعوم». يرجى الإبلاغ عن هذا الخطأ مع إصدارات نظام التشغيل والنواة.
  • إذا تمت مقاطعة المهام بسبب أخطاء ECC في GPU (سواء كانت قابلة للتصحيح أو غير قابلة للتصحيح)، فتحقق أولا لمعرفة ما إذا كانت GPU تفي بأي من معايير RMA الخاصة بأخطاء ECC لـNvidia. إذا كانت وحدة معالجة الرسومات مؤهلة للحصول على RMA، فيرجى الاتصال بالدعم بخصوص صيانتها؛ وإلا، فأعد تشغيل الجهاز الظاهري لإعادة توصيل وحدة GPU كما هو موضح هنا. لا تعمل الأساليب الأقل توغلا مثل nvidia-smi -r حل الظاهرية المنشور في Azure.

الخطوات التالية