إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تقدم هذه المقالة أفضل الممارسات لمراقبة وتفسير إشارات وحدة معالجة الرسومات على خدمة Azure Kubernetes (AKS). بدلا من النظر إلى مقاييس NVIDIA GPU بشكل منفصل، تقوم بربط الإشارات عبر سياق الاستخدام، والذاكرة، وعبء العمل لتحسين الأداء طويل الأمد وكفاءة العقد.
مهم
تتوفر ميزات معاينة AKS على أساس الخدمة الذاتية والاشتراك. يتم توفير المعاينات "كما هي" و"كما هي متاحة"، ويتم استبعادها من اتفاقيات مستوى الخدمة والضمان المحدود. تتم تغطية معاينات AKS جزئيًا بواسطة دعم العملاء على أساس بذل أفضل الجهود. على هذا النحو، لا تهدف هذه الميزات إلى استخدام الإنتاج. لمزيد من المعلومات، يُرجي الاطلاع على مقالات الدعم الآتية:
افهم استخدام وحدة معالجة الرسومات مقابل التشبع
لا تعامل مقياس DCGM_FI_DEV_GPU_UTIL NVIDIA DCGM كدرجة كفاءة مباشرة.
DCGM_FI_DEV_GPU_UTIL فقط يشير إلى عدد مرات نشاط النواة، لذا لا يخبرك ما إذا كان عبء العمل فعالا في الحساب. تحصل على إرشادات أكثر دقة من خلال ربط إشارات الاستخدام بدلا من قراءتها بشكل مستقل. قارن DCGM_FI_DEV_GPU_UTIL مع DCGM_FI_PROF_SM_ACTIVE، ثم قارن DCGM_FI_PROF_SM_ACTIVE مع DCGM_FI_PROF_DRAM_ACTIVE لتحديد ما إذا كانت عنق الزجاجة لديك هو الحساب أو الذاكرة أو عبء التشغيل والمزامنة الإضافية.
الارتفاع DCGM_FI_DEV_GPU_UTIL مع المنخفض DCGM_FI_PROF_SM_ACTIVE غالبا ما يشير إلى زيادة التشغيل، أو توقف التزامن، أو نزاع الذاكرة. الارتفاع DCGM_FI_PROF_SM_ACTIVE مع المنخفض DCGM_FI_PROF_DRAM_ACTIVE أكثر اتساقا مع السلوك المرتبط بالحساب. الأعلى DCGM_FI_PROF_DRAM_ACTIVE مع الأقل DCGM_FI_PROF_SM_ACTIVE عادة ما يشير إلى تنفيذ مرتبط بالذاكرة.
ملحوظة
DCGM_FI_PROF_SM_ACTIVE و DCGM_FI_PROF_DRAM_ACTIVE هما حقول تحليل DCGM وقد لا تظهر افتراضيا لجميع أنواع بنية بطاقات NVIDIA المتوفرة بأحجام Azure الآلة الافتراضية (VM).
يساعدك هذا النهج الذي يعتمد على الارتباط أولا على تجنب التوسع عندما تكون المشكلة الجذرية هي كفاءة النواة أو أنماط الوصول إلى الذاكرة. للدلالات التفصيلية للمتريات، راجع دليل مستخدم NVIDIA DCGM.
استخدم ضغط الذاكرة كإشارة جدولة أساسية
إذا كانت الذاكرة تقترب مرارا من عتبات خروج الذاكرة، اعتبر هذا النمط مؤشرا مبكرا على عدم الاستقرار. لا يحتوي كوبيرنتيز على إشارة ضغط أصلية لذاكرة GPU، لذا يظهر استنفاد ذاكرة VRAM عادة فقط عند قتل OOM الحاوية وتعطيل البود، وغالبا بعد أن تظهر بيانات DCGM الاتجاه بفترة طويلة.
أتمتة إجراءات دورة حياة العقدة من إشارات صحة وحدة معالجة الرسومات
هذه الممارسة مهمة بشكل خاص في مجموعات عقد وحدات معالجة الرسوميات طويلة العمر AKS حيث يمكن أن يختلف عمر المضيف عبر العقد.
محاذاة إشارات الملاحظة مع قرارات التوسع
للتوسع الرأسي، أنشئ مجموعة عقد جديدة على وحدة تخزين مختلفة للجهاز الافتراضي Azure مزود بمعالج الرسوميات، وقم بترحيل أحمال العمل عندما تحدد قيود الطاقة أو الحرارة معدل النقل، على سبيل المثال عندما يبقى DCGM_FI_DEV_POWER_USAGE قريبا من الحد بينما يبقى DCGM_FI_PROF_SM_ACTIVE ثابتا رغم الطلب.
سياسات الرصد المنفصلة ل MIG وغير MIG
عند تفعيل MIG، يتغير نطاق كل مقياس، لذا يتم تفسير الإشارات بشكل مختلف.
نشر مقاييس كفاءة وحدة معالجة الرسوميات الواعية بالتكلفة
قم بتحسين الرؤية من أجل التكلفة، وليس فقط الأداء. مقياس مشتق عالي القيمة لفرق منصات AKS هو ثوان GPU المستخدمة مقابل ثوان GPU المخصصة. استخدم بيانات DCGM وربط Kubernetes للسياق لنشر هذا المقياس حسب مساحة الاسم وفئة عبء العمل، ثم مراجعته مع مرور الوقت كمؤشر أداء مشترك لفرق المنصة والمالية. يحدد هذا النهج مصدرا مشتركا للحقيقة في قرارات التحسين ويساعد في منع الإفراط في التخصيص من أن يخفي بواسطة متوسطات الاستخدام الإجمالي.
الخطوات التالية
- راجع أفضل ممارسات وحدة معالجة الرسومات ل AKS.
- ابدأ مع مراقبة وحدة معالجة الرسوميات المدارة في AKS.
- تحسين التخصيص باستخدام عقد GPU متعددة النسخ.
- القياس بناء على إشارات GPU باستخدام مقاييس KEDA وDCGM.