إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تشغيل أحمال عمل NVIDIA GPU على خدمة Azure Kubernetes (AKS) يتطلب تقليديا تثبيت وصيانة برنامج تشغيل NVIDIA GPU، وإضافة جهاز Kubernetes، ومصدر مقاييس GPU على كل عقدة GPU. تتيح هذه المكونات جدولة وحدة معالجة الرسوميات، والوصول إلى وحدة معالجة الرسوميات على مستوى الحاويات، والقياس عن بعد، لكن تثبيتها يدويا أو عبر مشغل NVIDIA يضيف عبء تشغيلي.
مع عقد معالجة الرسوميات المدارة بالكامل (المعاينة)، يقوم AKS بتثبيت وصيانة برنامج تشغيل NVIDIA GPU، وإضافة الجهاز، ومصدري مقاييس مدير مركز معالجة الرسومات (DCGM) نيابة عنك. يصبح إنشاء تجمع عقد GPU خطوة واحدة، وسعة GPU تتصرف مثل أي تجمع عقد AKS آخر.
تقوم بتكوين تجمع عقد معالجة معالجة الرسومات المدارة عبر حقلين تحت gpuProfile.nvidia:
-
managementMode(ManagedأوUnmanaged) يتحكم فيما إذا كان AKS يثبت كامل حزمة GPU المدارة (برنامج التشغيل، إضافة الجهاز، ومصدر مقاييس DCGM) أو فقط على التعريف. الافتراضي هوUnmanaged. -
migStrategy(None,Single, orMixed) يحدد استراتيجية وحدة معالجة الرسوميات متعددة المثيلات (MIG) لوحدات معالجة الرسوميات المدعومة مثل A100 وH100. الافتراضي هوNone.
في هذا المقال، تقوم بتوفير مجموعة عقد مدارة لوحدات معالجة الرسوميات، وتفعل MIG اختياريا، وتتحقق من المكدس، وتشغل عبء عمل نموذجي لوحدة معالجة الرسوميات.
Important
تتوفر ميزات معاينة AKS على أساس الخدمة الذاتية والاشتراك. يتم توفير المعاينات "كما هي" و"كما هي متوفرة"، ويتم استبعادها من اتفاقيات مستوى الخدمة والضمان المحدود. تتم تغطية معاينات AKS جزئيًا بواسطة دعم العملاء على أساس بذل أفضل الجهود. على هذا النحو، هذه الميزات ليست مخصصة للاستخدام الإنتاجي. لمزيد من المعلومات، يُرجي الاطلاع على مقالات الدعم الآتية:
قبل البدء
- تفترض هذه المقالة أن لديك مجموعة AKS موجودة. إذا لم يكن لديك مجموعة، فبادر بإنشاء مجموعة باستخدام Azure CLI أو Azure PowerShell أو مدخل Microsoft Azure.
- تحتاج إلى تثبيت Azure CLI الإصدار 2.85.0 أو أحدث. للعثور على الإصدار، قم بتشغيل
az --version. إذا كنت بحاجة إلى التثبيت أو الترقية، فراجع تثبيت Azure CLI. - تحتاج إلى التثبيت والترقية إلى أحدث إصدار من الملحق
aks-preview. - احصل على بيانات اعتماد مجموعة
az aks get-credentialsAKS الخاصة بك قبل تشغيل الأمثلةkubectlفي هذا المقال.
مكونات وحدة معالجة الرسوميات المدارة
يمكن أن تتضمن مجموعة عقد GPU المدارة المكونات التالية في كل عقدة:
| المكون | ماذا تفعل | ما تديره AKS |
|---|---|---|
| برنامج تشغيل بطاقة الرسوميات NVIDIA | وحدات النواة ومكتبات مساحة المستخدم التي تسمح لنظام التشغيل والحاويات بالتواصل مع عتاد وحدة معالجة الرسومات. | اختيار نسخة التعريف، التثبيت عند إعداد العقدة، وإعادة التثبيت بعد ترقيات صورة العقدة. |
| إضافة أجهزة NVIDIA Kubernetes | ما يعادل DaemonSet الذي يعلن عن موارد GPU (nvidia.com/gpu, nvidia.com/mig-*) إلى kubelet حتى تتمكن البودات من طلبها. |
النشر، التكوين (بما في ذلك استراتيجية MIG)، ودورة الحياة على كل عقدة GPU. |
| مصدرة مقاييس DCGM و DCGM من NVIDIA | يقوم مدير وحدة معالجة الرسومات في مركز البيانات بجمع بيانات صحة واستخدام وحدة معالجة الرسومات ويعرض مقاييس بروميثيوس (على سبيل المثال، DCGM_FI_DEV_GPU_UTIL، DCGM_FI_DEV_GPU_TEMP) على المنفذ19400. |
التركيب، تمكين الخدمة، وتسمية kubernetes.azure.com/dcgm-exporter=enabled العقدة المستخدمة لجمع المقاييس. |
| إشارات صحة وحدة معالجة الرسومات | إشارات NPD التي تظهر حالات عقدة خاصة بوحدة معالجة الرسومات مثل UnhealthyNvidiaDevicePlugin و UnhealthyNvidiaDCGMServices. |
مراقبة NPD والإبلاغ عن الحالة على عقد GPU. |
ملفات تعريف التثبيت
حقلان gpuProfile يحددان أي من هذين المكونين يثبته AKS:
-
gpuProfile.driver(InstallأوNone): سواء قامت AKS بتثبيت تعريف NVIDIA GPU. -
gpuProfile.nvidia.managementMode(ManagedأوUnmanaged): هل تقوم AKS أيضا بتثبيت مكدس معالج الرسوميات المواجه لكوبيرنتيز فوق برنامج التشغيل.
معا، ينتجان ثلاثة ملفات تعريف للتثبيت:
| ملف التثبيت | أعلام CLI | ما الذي تقوم AKS بتركيبه وإدارته |
|---|---|---|
| الحزمة المدارة الكاملة |
--enable-managed-gpu=true (أو لا علم أبدا) |
المكونات الأربعة أعلاه: برنامج التشغيل، إضافة الجهاز، مصدرا مقاييس DCGM، ومراقبة صحة وحدة معالجة الرسوميات في NPD. |
| السائق فقط (الافتراضي) | --enable-managed-gpu=false |
برنامج تشغيل بطاقة الرسومات NVIDIA فقط. تقوم بتثبيت وإدارة إضافة الجهاز، ومصدر المقاييس، ومراقبة الصحة بنفسك (على سبيل المثال، باستخدام مشغل بطاقة NVIDIA). |
| لا شيء (BYO) | --enable-managed-gpu=false --gpu-driver None |
بدون. AKS لا يثبت أيا من المكونات الأربعة. أنت تملك الحزمة الكاملة. انظر أحضر تعريف بطاقة الرسوميات الخاص بك. |
الإعدادات الافتراضية والتجاوزات
-
الإعدادات الافتراضية: إذا لم تنجح
--enable-managed-gpuأو--gpu-driver، يطبق AKS ملف تعريف التعريف الخاص بالسائق فقط على مجموعة العقد التي تم إنشاؤها بحجم جهاز افتراضي مفعل بمعالج NVIDIA . -
التجاوز:
managementMode: Managedيتطلب تعريف التشغيل، لذا--gpu-driver Noneيتم تجاهله عندما--enable-managed-gpu=trueيكون التعريف مثبتا. لتجاوز برنامج التشغيل، قم بتعيين كلا الاثنين--enable-managed-gpu=falseو--gpu-driver None. -
الثبات:
managementMode،migStrategy، وdriverكلها ثابتة عند وقت الخلق. لتغيير الملف الشخصي، أنشئ مجموعة عقد جديدة.
aks-preview تثبيت ملحق CLI
aks-previewتثبيت ملحق CLI باستخدامaz extension addالأمر . الإصدار 19.0.0b29 أو أحدث مطلوب.az extension add --name aks-previewقم بتحديث الملحق للتأكد من تثبيت أحدث إصدار باستخدام
az extension updateالأمر .az extension update --name aks-preview
تسجيل ManagedGPUExperiencePreview العلامات المميزة
سجل علامة الميزة ManagedGPUExperiencePreview في اشتراكك باستخدام az feature register الأمر .
az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Limitations
- تدعم هذه الميزة حاليا أحجام الجهاز الظاهري (VM) التي تدعم وحدة معالجة الرسومات NVIDIA فقط.
- تحديث تجمع عقد للأغراض العامة لإضافة حجم جهاز ظاهري لوحدة معالجة الرسومات غير مدعوم على AKS.
- تجمع عقد Windows غير مدعوم بهذه الميزة، لأن مقاييس GPU غير مدعومة. عند إنشاء مجموعات عقد بطاقات Windows، يقوم AKS تلقائيا بتثبيت وإدارة التعريفات وإضافة جهاز DirectX. لمزيد من المعلومات، راجع AKS Windows توثيق GPU.
- لا يتم دعم ترحيل تجمعات عقد GPU الحالية متعددة المثيلات لاستخدام هذه الميزة.
- الترقيات المباشرة من مجموعة عقد NVIDIA الحالية إلى مجموعة عقد معالجة الرسوميات المدارة غير مدعومة. للترحيل، قم بتقييد واستنزاف عقد GPU الحالية، ثم أعد نشر أعباء العمل إلى مجموعة عقد GPU جديدة تم إنشاؤها باستخدام
--enable-managed-gpu=true. لمزيد من المعلومات، راجع تجمعات إعادة تكبير العقد على AKS. - الحقول
managementMode،migStrategy، والحقولdriverتحتgpuProfileتكون ثابتة بعد إنشاء تجمع العقد. لتغيير هذه القيم، أنشئ مجموعة عقد جديدة. - مقياس تلقائي للعنقود غير مدعوم في مجموعات عقد GPU المدارة أثناء المعاينة. قم بتوسيع هذه المجموعات يدويا.
Note
تحتوي الأجهزة الظاهرية التي تدعم وحدة معالجة الرسومات على أجهزة متخصصة تخضع لتسعير أعلى وتوافر المنطقة. لمزيد من المعلومات، راجع أداة التسعيروتوافر المنطقة.
إنشاء تجمع عقدة GPU مدار بواسطة AKS (معاينة)
أضف تجمع عقد معالجة رسومات مدارة إلى عنقود AKS موجود عن طريق التمرير --enable-managed-gpu=true إلى az aks nodepool add. يقوم AKS بتعيين gpuProfile.nvidia.managementModeManaged وتثبيت تعريف GPU وإضافة الجهاز ومصدري مقاييس DCGM تلقائيا.
لاستخدام SKU الافتراضي لنظام التشغيل (OS) Ubuntu، يمكنك إنشاء تجمع العقد دون تحديد SKU لنظام التشغيل. يتم تكوين تجمع العقدة لنظام التشغيل الافتراضي استنادا إلى إصدار Kubernetes من نظام المجموعة.
أضف تجمع عقدة إلى نظام المجموعة الخاص بك باستخدام
az aks nodepool addالأمر الذي يحتوي على العلامة--enable-managed-gpu=true.az aks nodepool add \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \ --node-count 1 \ --node-vm-size Standard_NC6s_v3 \ --node-taints sku=gpu:NoSchedule \ --enable-managed-gpu=trueتأكد من تثبيت مكونات برنامج NVIDIA GPU المدارة بنجاح:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunpيجب أن يتضمن الإخراج القيم التالية:
... "gpuProfile": { "driver": "Install", "driverType": "", "nvidia": { "managementMode": "Managed", "migStrategy": null } }, ...
إنشاء مجموعة عقد معالجة معالجة رسوميات متعددة الحالات (MIG) مدارة (معاينة)
بالنسبة لوحدات معالجة الرسومات التي تدعم وحدة معالجة الرسومات متعددة المثيلات (مثل A100 و H100)، قم بتكوين استراتيجية MIG عند إنشاء تجمع العقد باستخدام العلم --gpu-mig-strategy . تتحكم الاستراتيجية في كيفية تعرض تقسيمات MIG للعبة Kubernetes:
-
Singleجميع نسخ MIG مجمعة تحت المورد القياسيnvidia.com/gpu. -
Mixed: يتم عرض كل ملف تعريف MIG كمورد منفصل، مثلnvidia.com/mig-1g.10gb. -
None(افتراضي): MIG غير مهيأ.
migStrategy يصبح الحقل غير قابل للتغيير بعد إنشاء تجمع العقد.
للحصول على خلفية حول تقسيم MIG، وأحجام الأجهزة الافتراضية المدعومة، وملفات ملفات مثيلة GPU، راجع إنشاء تجمع عقد GPU متعدد النسخات في AKSوNVIDIA Multi-Instance GPU.
az aks nodepool add \
--resource-group myResourceGroup \
--cluster-name myAKSCluster \
--name mignp \
--node-count 1 \
--node-vm-size Standard_NC24ads_A100_v4 \
--node-taints sku=gpu:NoSchedule \
--enable-managed-gpu=true \
--gpu-instance-profile MIG1g \
--gpu-mig-strategy Single
مع هذا التكوين، تطلب البودات موارد وحدة معالجة الرسومات باستخدام اسم المورد القياسي nvidia.com/gpu .
تحقق من مجموعة عقد وحدة معالجة الرسوميات المدارة (معاينة)
بعد أن يصبح تجمع العقد جاهزا، قم بإجراء الفحوصات التالية للتأكد من أن الحزمة المدارة بالكامل مثبتة وبصحة جيدة.
تحقق من شروط العقدة الخاصة بوحدة معالجة الرسومات من كاشف مشاكل العقدة (NPD):
GPU_NODE=$(kubectl get nodes -l agentpool=gpunp -o jsonpath='{.items[0].metadata.name}') kubectl describe node $GPU_NODEعلى عقدة معالجة رسومات مدارة، يجب أن تظهر
Falseالشروط التالية كلاهما:شرط Status Reason UnhealthyNvidiaDevicePluginFalseHealthyNvidiaDevicePluginUnhealthyNvidiaDCGMServicesFalseHealthyNvidiaDCGMServicesتحقق من وجود تسمية وحدة معالجة الرسوميات المدارة على العقدة:
kubectl get node $GPU_NODE -o jsonpath='{.metadata.labels.kubernetes\.azure\.com/dcgm-exporter}'الإنتاج المتوقع:
enabled.تحقق من أن موارد GPU معلنة في الموارد القابلة للتخصيص للعقدة:
kubectl get node $GPU_NODE -o jsonpath='{.status.allocatable}'بالنسبة لتجمع عقد غير MIG، يشمل
"nvidia.com/gpu": "1"الناتج (أو أكثر، حسب وحدة SKU). بالنسبة لمجموعة عقد MIGMixed، يشمل الناتج موارد خاصة ب MIG مثل"nvidia.com/mig-1g.10gb": "7".شغل عبء عمل نموذجي لتأكيد وصول وحدة معالجة الرسومات من داخل الحاوية:
apiVersion: v1 kind: Pod metadata: name: managed-gpu-test spec: restartPolicy: Never tolerations: - key: "sku" operator: "Equal" value: "gpu" effect: "NoSchedule" containers: - name: gpu-test image: mcr.microsoft.com/azuredocs/samples-tf-mnist-demo:gpu command: ["nvidia-smi"] resources: limits: nvidia.com/gpu: 1عرض سجلات البودات لرؤية
nvidia-smiالإخراج الذي يظهر جهاز GPU، وإصدار التعريف، ونسخة CUDA:kubectl logs managed-gpu-test
تكبير مجموعة عقد GPU المدارة (المعاينة)
قم بتوسيع مجموعة عقد معالجة الرسوميات المدارة يدويا باستخدام az aks nodepool scale. العقد الجديدة تثبت كامل حزمة معالجة الرسومات المدارة.
az aks nodepool scale \
--resource-group myResourceGroup \
--cluster-name myAKSCluster \
--name gpunp \
--node-count 2
Important
أثناء المعاينة، لا تدعم مجموعات عقد وحدات معالجة الرسومات المدارة جهاز التكبير التلقائي للعناصر. قم بتوسيع هذه المجموعات يدويا.
ملفات تعريف التثبيت البديلة
إذا لم يكن ملف تعريف الحزمة المدارة الكاملة مناسبا، يدعم AKS ملفي تعريف بديل في مجموعات عقد GPU.
استخدم هذا الملف عندما تريد من AKS تثبيت وصيانة تعريف بطاقة NVIDIA، لكنك تخطط لنشر إضافة الجهاز ومصدري المقاييس بنفسك (على سبيل المثال، مع مشغل NVIDIA GPU). تعيين --enable-managed-gpu=false:
az aks nodepool add \
--resource-group myResourceGroup \
--cluster-name myAKSCluster \
--name gpunp \
--node-count 1 \
--node-vm-size Standard_NC6s_v3 \
--node-taints sku=gpu:NoSchedule \
--enable-managed-gpu=false
مع هذا التكوين:
- تقوم AKS بتثبيت وإدارة تعريف بطاقة NVIDIA (
gpuProfile.driverهيInstall). - AKS لا يثبت إضافة جهاز، أو مصدرة مقاييس DCGM، أو قواعد صحة وحدة معالجة الرسوميات.
gpuProfile.nvidiaهيnull. - لا
nvidia.com/gpuيتم الإعلان عن أي مورد حتى تقوم بنشر إضافة جهاز.
الخطوات التالية
- انشر عينة من حمل عمل GPU على العقد التي تدعم وحدة معالجة الرسومات المدارة بواسطة AKS.
- تعرف على استخدام وحدة معالجة الرسومات ومقاييس الأداء من مصدر NVIDIA DCGM المدار على تجمع عقدة وحدة معالجة الرسومات.
المقالات ذات الصلة
- استخدم بطاقات NVIDIA على AKS لتجربة GPU القياسية (غير المدارة).
- أنشئ مجموعة عقد لوحدات معالجة الرسوميات (MIG) متعددة المثيلات لخلفية تقسيم MIG وأحجام الأجهزة الافتراضية المدعومة.
- مشغل بطاقة الرسومات NVIDIA لإدارة تعريفات بطاقة الرسوميات وإضافة الجهاز بنفسك.
- راقب مقاييس وحدة معالجة الرسوميات من مصدر NVIDIA DCGM المدار.
- مراقبة صحة وحدة معالجة الرسومات باستخدام كاشف مشاكل العقدة (NPD) على AKS.
- استخدم Windows GPU على AKS لمجموعات عقد Windows GPU.
- Azure أحجام الآلات الافتراضية لوحدات معالجة الرسوميات للقائمة الكاملة بالأجهزة الافتراضية المفعلة بمعالج الرسوميات في NVIDIA.
- قم بتشغيل الاستدلال الموزع على عقد AKS GPU متعددة.