إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
يقوم عامل تشغيل NVIDIA GPU بأتمتة إدارة ونشر جميع مكونات برنامج NVIDIA اللازمة لتوفير وحدة معالجة الرسومات بما في ذلك تثبيت برنامج التشغيل والمكون الإضافي لجهاز NVIDIA ل Kubernetes ووقت تشغيل حاوية NVIDIA والمزيد. نظرا لأن عامل تشغيل NVIDIA GPU يعالج هذه المكونات، فليس من الضروري تثبيت المكون الإضافي لجهاز NVIDIA بشكل منفصل على نظام مجموعة AKS. وهذا يعني أيضا أنه يجب تخطي تثبيت برنامج تشغيل GPU التلقائي لاستخدام عامل تشغيل NVIDIA GPU على AKS.
نصيحة
إذا لم تكن بحاجة إلى التحكم الكامل من مشغل بطاقة NVIDIA، يمكنك تثبيت وصيانة برنامج تشغيل NVIDIA، وإضافة جهاز Kubernetes، ومصدر مقاييس DCGM نيابة عنك.
هام
يتم ذكر البرامج مفتوحة المصدر في جميع وثائق وعينات AKS. يتم استبعاد البرامج التي تنشرها من اتفاقيات مستوى خدمة AKS والضمان المحدود ودعم Azure. أثناء استخدامك للتكنولوجيا مفتوحة المصدر جنبا إلى جنب مع AKS، راجع خيارات الدعم المتوفرة من المجتمعات المحلية المعنية ومشرفي المشاريع لوضع خطة.
تتحمل Microsoft مسؤولية بناء الحزم مفتوحة المصدر التي ننشرها على AKS. تتضمن هذه المسؤولية امتلاك ملكية كاملة لعملية البناء والمسح الضوئي والتوقيع والتحقق من الصحة وإصلاحها، بالإضافة إلى التحكم في الثنائيات في صور الحاوية. لمزيد من المعلومات، راجع إدارة الثغرات الأمنية لتغطية دعم AKSوAKS.
قبل البدء
- تفترض هذه المقالة أن لديك مجموعة AKS موجودة. إذا لم يكن لديك مجموعة، فبادر بإنشاء مجموعة باستخدام Azure CLI أو Azure PowerShell أو مدخل Microsoft Azure.
- تحتاج إلى تثبيت الإصدار 2.72.2 من Azure CLI أو إصدار أحدث لتعيين
--gpu-driverالحقل. قم بتشغيلaz --versionللعثور على الإصدار. إذا كنت بحاجة إلى التثبيت أو الترقية، فراجع تثبيت Azure CLI.
إشعار
تحتوي الأجهزة الظاهرية التي تدعم وحدة معالجة الرسومات على أجهزة متخصصة تخضع لتسعير أعلى وتوافر المنطقة. لمزيد من المعلومات، راجع أداة التسعيروتوافر المنطقة.
القيود
- مشغل وحدة معالجة الرسومات NVIDIA غير مدعوم لخيارات نظام التشغيل التالية: إصدارات Windows Server وFlatcar Container Linux ل AKS (معاينة)وAzure Linux مع OS Guard for AKS (معاينة).
الحصول على بيانات اعتماد لمجموعتك
احصل على بيانات الاعتماد لنظام مجموعة AKS باستخدام az aks get-credentials الأمر . يحصل الأمر المثال التالي على بيانات الاعتماد لنظام المجموعة myAKSCluster في myResourceGroup مجموعة الموارد:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
إشعار
عامل تشغيل NVIDIA GPU غير متوافق مع إصدارات نظام التشغيل المتعددة على نفس نظام مجموعة AKS.
تخطي تثبيت برنامج تشغيل GPU التلقائي عن طريق إنشاء تجمع عقدة NVIDIA GPU ممكن باستخدام الأمر [
az aks nodepool add][az-aks-nodepool-add] وتعيين حقل--gpu-driverAPI إلى القيمةnone. يؤدي تعيين حقل API هذا إلى أثناء إنشاء تجمع العقدة إلىnoneتخطي تثبيت برنامج تشغيل GPU الافتراضي، راجع هذا المثال. لا يتم تغيير أي عقد موجودة. يمكنك توسيع نطاق تجمع العقدة إلى الصفر ثم إجراء نسخ احتياطي لجعل التغيير نافذ المفعول.اتبع وثائق NVIDIA لتثبيت عامل تشغيل GPU.
الآن بعد أن قمت بتثبيت عامل تشغيل وحدة معالجة الرسومات بنجاح، يمكنك التحقق من أن وحدات معالجة الرسومات قابلة للمخططاتوتشغيل حمل عمل GPU.
إشعار
قد تكون هناك اعتبارات إضافية يجب أخذها عند استخدام عامل تشغيل NVIDIA GPU والنشر على مثيلات SPOT. يرجى الرجوع إلى https://github.com/NVIDIA/gpu-operator/issues/577
الخطوات التالية
- قارن ذلك مع تجمعات عقد GPU المدارة من AKS (المعاينة)، التي تقوم بتثبيت وصيانة تعريف NVIDIA، وإضافة الجهاز، ومصدر مقاييس DCGM لك.
- مراقبة مقاييس NVIDIA GPU باستخدام Azure Managed Prometheus وAzure Managed Grafana.
- تعرف على المزيد حول مجموعات Ray على AKS.