إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
يدعم خدمة Azure Kubernetes (AKS) تجمعات العقد المدعومة بمعالج معالجة الرسومات NVIDIA لتشغيل أحمال عمل مكثفة الحوسبة، بما في ذلك تدريب الذكاء الاصطناعي وتعلم الآلة، والاستدلال اللحظي، وتحليلات البيانات واسعة النطاق. تقليديا، تخصص وحدات معالجة الرسومات في نموذج واحد لواحد، حيث تستهلك وحدة Kubernetes واحدة جهاز GPU كامل داخل آلة افتراضية (VM) من Azure. بينما يوفر هذا النموذج بساطة وعزلا قويا، إلا أنه قد يؤدي إلى نقص الاستخدام في الحالات التي لا تستهلك فيها أعباء العمل موارد GPU المتاحة بالكامل في العنقود.
لتحسين الاستخدام ودعم الأحمال المتزامنة، يمكن للعملاء دمج استراتيجيات تقسيم مختلفة لوحدات معالجة الرسومات على مجموعة العقد الخاصة بهم. تمكن هذه الأساليب عدة أحمال عمل من مشاركة وحدة معالجة رسومات فيزيائية واحدة عن طريق تقسيمها إلى وحدات منطقية أصغر أو بتوسيع الوصول على مستوى برنامج التشغيل أو برنامج تشغيل وحدة معالجة الرسوميات.
في هذا المقال، ستتعرف على ثلاث استراتيجيات رئيسية لتقسيم العقد لوحدات معالجة الرسومات NVIDIA في AKS: وحدة معالجة الرسوميات متعددة المثيلات (MIG)،القطع الزمني، وخدمة العمليات المتعددة (MPS).
نظرة عامة على استراتيجيات تقسيم عقد وحدات معالجة الرسومات في AKS
الاستراتيجيات الثلاث الرئيسية المتاحة في بيئات AKS هي وحدة معالجة الرسوميات متعددة المثيلات (MIG)، وقطع الوقت، وخدمة العمليات المتعددة (MPS). يختلف كل نهج من حيث إدارة منصة AKS، ونوع العزل، وحالات النشر.
| الاستراتيجية | هل تم التحكم فيه أو مسموح به على AKS | نوع مشاركة وحدة معالجة الرسومات | موصى به ل |
|---|---|---|---|
| وحدة معالجة الرسوميات متعددة المثيلات (MIG) | مدار (أو مدار من قبل المستخدم عبر مشغل GPU) | تقسيم الأجهزة | أحمال عمل الإنتاج |
| تقسيم الزمن (عبر مشغل بطاقة NVIDIA) | يديره المستخدم، وAKS مسموح به | جدولة البرمجيات | تجربة أحمال متغيرة لوحدة معالجة الرسوميات |
| خدمة متعددة العمليات (MPS, NVIDIA GPU OPERATOR) | يديره المستخدم، وAKS مسموح به | تعدد عمليات على مستوى CUDA | أحمال العمل منخفضة التأخير وعالية الإنتاجية |
وحدة معالجة الرسوميات متعددة الحالات المدارة (MIG) على AKS
وحدة معالجة الرسوميات متعددة المثيلات (MIG) هي قدرة تقسيم قائمة على الأجهزة متوفرة في بعض معماريات وحدات معالجة الرسومات NVIDIA، مثل سلسلة A100 وH100 وH200. يتيح MIG تقسيم وحدة معالجة رسومات فيزيائية واحدة إلى عدة مثيلات معزولة، كل منها يحتوي على نوى حوسبة مخصصة، وذاكرة، وذاكرة مؤقتة. وهذا يضمن عزلا قويا لعبء العمل وخصائص أداء متوقعة، مما يجعل MIG مناسبة لبيئات الإنتاج.
في AKS، MIG هي قدرة مدارة. عندما يتم توفير تجمع عقد MIG، يقوم Azure بتكوين عتاد وحدة معالجة الرسومات، وتثبيت وصيانة مكدس التعريفات المطلوب، ودمج مثيلات MIG مع Kubernetes من خلال إضافة جهاز NVIDIA. يتم عرض كل شريحة MIG لجدولة Kubernetes كمورد قابل للتخصيص منفصل، مما يسمح للوحدات بطلب سعة GPU بطريقة دقيقة وحتمية.
يقدم هذا النهج عدة مزايا لنشر المؤسسات. يوفر عزلا من مستوى الإنتاج من خلال تقسيم على مستوى العتاد ويقلل من العبء التشغيلي من خلال تفويض إدارة دورة الحياة، بما في ذلك تحديثات وإعدادات التعريفات، إلى AKS. بالإضافة إلى ذلك، تتصرف نسخ MIG كأجهزة GPU مستقلة من منظور المجدول الموسيقي، مما يتيح توزيع وتخصيص موارد متوقع.
ومع ذلك، يقدم MIG أيضا بعض القيود: تكون تكوينات التقسيم ثابتة على مستوى مجموعة العقد، مما يعني أن التغييرات تتطلب إعادة توفير العقدة. المرونة محدودة بملفات تعريف MIG المحددة مسبقا المدعومة من قبل أجهزة وحدة معالجة الرسوميات الأساسية.
تقطيع الوقت باستخدام مشغل بطاقة الرسومات NVIDIA (يديره المستخدم)
تقسيم الزمن هو آلية مشاركة وحدات معالجة رسومات تعتمد على البرمجيات تسمح لعدة وحدات Kubernetes بمشاركة وحدة معالجة رسومات واحدة عن طريق تداخل التنفيذ مع مرور الوقت. يتم تنفيذ هذا النهج من خلال مشغل NVIDIA GPU، الذي يدير تعريفات GPU، وإضافة جهاز Kubernetes، وتكوين وقت تشغيل الحاويات.
يمكن تكوين تقسيم الوقت على مجموعات عقد AKS ولكن لا يمكن إدارته بواسطة المنصة. مشغلو العنقود مسؤولون عن نشر وتكوين مشغل بطاقة NVIDIA، عادة عبر Helm، وتمكين تقسيم الوقت عبر إعدادات الإضافات في الجهاز. بمجرد التكوين، يمكن لعدة كبسولات طلب الوصول إلى نفس مورد وحدة معالجة الرسومات، ويتم جدولة أحمال العمل بطريقة مشتركة زمنية.
يوفر التقطيع الزمني مرونة وتوافقا واسعا، لأنه لا يعتمد على ميزات عتاد وحدة معالجة الرسوميات المحددة ويمكن استخدامه مع معظم وحدات معالجة الرسوميات NVIDIA المدعومة من قبل CUDA. مفيد للتطوير أو الاختبار أو لأحمال العمل التي تحتوي على أنماط استخدام متغيرة أو متغيرة لوحدات معالجة الرسوميات.
على الرغم من مرونته، لا يوفر التقطيع الزمني عزلا على مستوى العتاد. جميع أحمال العمل تشترك في نفس ذاكرة وحدة معالجة الرسومات وموارد الحوسبة، مما قد يؤدي إلى تنافس وأداء غير متوقع. نظرا لأن إدارة التكوين ودورة الحياة يقودها المستخدم، يجب على المشغلين أيضا التعامل مع تحديثات التعريفات، والتوافق، والتعديل. لذلك، لا ينصح عموما بتقسيم الوقت لأعباء العمل الإنتاجية التي تتطلب اتفاقيات مستوى خدمة صارمة (SLAs).
خدمة متعددة العمليات (MPS) مع مشغل وحدة معالجة الرسومات NVIDIA (يديره المستخدم)
خدمة NVIDIA متعددة العمليات (MPS) هي قدرة على مستوى السائق تتيح تنفيذ عدة تطبيقات CUDA في نفس الوقت على وحدة معالجة رسومات واحدة. على عكس التقطيع الزمني، الذي يتناوب بين أحمال العمل، يسمح MPS لتشغيل النوى من عمليات مختلفة في نفس الوقت، مما يحسن استخدام GPU بشكل عام ويقلل من زمن الاستجابة لأحمال العمل المتوافقة.
في AKS، يمكن تكوين MPS عبر نشر مستخدم NVIDIA GPU الذي يديره المستخدم . يجب على المشغلين تكوين بيئة برنامج تشغيل وحدة معالجة الرسومات لتمكين MPS وإدارة دورة حياة خادم التحكم في MPS. يمكن لأحمال العمل التي تتصل بنفس خادم MPS مشاركة وحدة معالجة الرسومات والاستفادة من تنفيذ النواة المتزامن.
MPS مفيد للسيناريوهات ذات الإنتاجية العالية ومنخفضة التأخير، مثل المهام الدفعية أو الأحمال المتوازية المترابطة بشكل وثيق. يوفر تحكما دقيقا في مشاركة وحدة معالجة الرسوميات ويمكنه تحسين الاستخدام بشكل كبير عندما تصمم أعباء العمل للاستفادة من التنفيذ المتزامن.
ومع ذلك، تقدم MPS تعقيدا تشغيليا إضافيا. التكوين يدوي، واستكشاف الأخطاء يمكن أن يكون أكثر تعقيدا مقارنة بالطرق الأخرى. مماثل لتقسيم الوقت، لا يوفر MPS عزلا قويا، حيث تشارك جميع العمليات ذاكرة GPU وموارد الحوسبة. لذلك، لا ينصح عموما ب MPS لأعباء العمل الإنتاجية التي تتطلب اتفاقيات مستوى خدمة صارمة (SLAs).
كيفية اختيار استراتيجية تقسيم وحدة معالجة الرسوميات
اختيار استراتيجية تقسيم وحدات معالجة الرسومات المناسبة في AKS يعتمد على متطلبات عبء العمل، والتفضيلات التشغيلية، وتوقعات الأداء. MIG هو النهج الموصى به في بيئات الإنتاج التي تتطلب عزلا قويا وأداء متوقعا. كميزة في مجموعة عقد AKS، يبسط MIG العمليات ويقلل من العبء الإداري.
تقطيع الوقت مفيد للبيئات غير الإنتاجية أو الأحمال التي تعاني من تقلب الطلب على وحدة معالجة الرسوميات، حيث يكون تعظيم الاستخدام أهم من الاتساق. يوفر حلا غير معتمد على العتاد لكنه يتطلب إدارة دقيقة ولا يضمن عزل الأداء.
يعد MPS مثاليا للأعباء المتخصصة التي تستفيد من تنفيذ وحدات معالجة الرسومات المتزامنة وانخفاض التأخير. يقدم أعلى كفاءة استخدام محتملة لكنه يأتي مع تعقيد متزايد وعزل قليل، مما يجعله الأنسب للمستخدمين المتقدمين الذين لديهم تطبيقات واثقة من CUDA.
في الواقع، يمكن للمؤسسات تبني استراتيجيات مختلفة عبر البيئات، باستخدام MIG لمجموعات الإنتاج مع الاستفادة من تقسيم الوقت أو التقسيم الزمني في سيناريوهات التطوير أو التجريب. يعد التقييم الدقيق لخصائص عبء العمل في وحدة معالجة الرسومات والقيود التشغيلية ضروريا لاختيار أفضل نهج تقسيم طويل الأمد فعالا.
المحتوى ذو الصلة
- ابدأ بمجموعات عقد GPU متعددة النسخ على AKS.
- تعرف على أفضل الممارسات لإدارة دورة حياة العقد المفعلة بمعالج الرسوميات.
- قم بتحسين استخدام وأداء عقد وحدة معالجة الرسومات من خلال تكوين تعبئة صندوق العقد في العنقود.