الإصلاح التلقائي لعقد خدمة Azure Kubernetes Service (AKS)

تراقب AKS باستمرار الحالة الصحية لعُقد العمال وتُجري إصلاحاً تلقائياً للعُقد إذا أصبحت غير صحية. يُجري النظام الأساسي للجهاز الظاهري Azure (VM) الصيانة للأجهزة الظاهرية التي تواجه مشكلات.

تعمل AKS وأجهزة Azure الظاهرية معاً لتقليل انقطاعات الخدمة للمجموعات.

في هذا المستند، ستتعرف على كيفية عمل وظيفة إصلاح العقدة التلقائي لكل من عقدتي Windows وLinux.

كيف يتحقق AKS من العُقد غير الصحية

تستخدم AKS القواعد التالية لتحديد ما إذا كانت العقدة غير صحية وتحتاج إلى إصلاح:

  • تبلغ العقدة عن حالة NotReady في عمليات التحقق المتتالية خلال إطار زمني مدته 10 دقائق.
  • العقدة لا تبلغ عن أي حالة في غضون 10 دقائق.

يمكنك التحقق يدوياً من الحالة الصحية لعقدك باستخدام kubectl.

kubectl get nodes

كيف يعمل الإصلاح التلقائي

ملاحظة

تبدأ AKS عمليات الإصلاح باستخدام حساب المستخدم aks-remediator.

إذا حددت AKS عقدة غير صحية تظل غير صحية لمدة 10 دقائق، تتخذ AKS الإجراءات التالية:

  1. إعادة تمهيد العقدة.
  2. إذا لم تنجح عملية إعادة التشغيل، فأعد رسم العقدة.
  3. إذا لم تنجح reimage، فقم بإعادة توزيع العقدة.

يحقق مهندسو AKS في العلاجات البديلة إذا لم ينجح الإصلاح التلقائي.

إذا عثرت AKS على عدة عُقد غير صحية أثناء الفحص الصحي، فسيتم إصلاح كل عقدة على حدة قبل بدء إصلاح آخر.

العقدة Autodrain

يمكن أن تحدث الأحداث المجدولة على الأجهزة الظاهرية الأساسية (VM) في أي من مجموعات من العقد الخاصة بك. بالنسبة إلى مجموعات العقد الموضعية، قد تتسبب الأحداث المجدولة في حدوث استباقي لحدث العقدة للعقدة. تتسبب أحداث عقدة معينة، مثل استباق، في محاولة التفريغ التلقائي لعقدة AKS لتطويق العقدة المتأثرة واستنزافها، ما يسمح بإعادة جدولة جيدة لأي أحمال عمل متأثرة على تلك العقدة. عندما يحدث هذا، قد تلاحظ أن العقدة تتلقى علامة بـ "remediator.aks.microsoft.com/unschedulable"، بسبب "kubernetes.azure.com/scalesetpriority: spot".

يعرض الجدول التالي أحداث العقدة، والإجراءات التي تسببها للتصريف التلقائي لعقدة AKS.

الحدث الوصف إجراء
تجميد من المقرر أن يتوقف الجهاز الظاهري لبضع ثوانٍ. قد يتم تعليق اتصال وحدة المعالجة المركزية والشبكة، ولكن لا يوجد تأثير على الذاكرة أو الملفات المفتوحة بدون إجراء
إعادة التشغيل تمت جدولة VM لإعادة التشغيل. يتم فقد ذاكرة الجهاز الظاهري غير الدائمة. بدون إجراء
إعادة التوزيع تمت جدولة VM للانتقال إلى عقدة أخرى. تم فقد أقراص الجهاز الظاهري المؤقتة. التطويق والاستنزاف
استباق يتم حذف النقطة VM. تم فقد أقراص الجهاز الظاهري المؤقتة. التطويق والاستنزاف
⁧⁩إنهاء⁧⁩ تمت جدولة الجهاز الظاهري ليتم حذفه. التطويق والاستنزاف

التقييدات

في كثير من الحالات، يمكن لـ AKS تحديد ما إذا كانت العقدة غير صحية ومحاولة إصلاح المشكلة، ولكن هناك حالات يتعذر فيها على AKS إما إصلاح المشكلة أو عدم اكتشاف وجود مشكلة. على سبيل المثال، لا يمكن لـ AKS اكتشاف المشكلات إذا لم يتم الإبلاغ عن حالة العقدة بسبب خطأ في تكوين الشبكة، أو إذا فشلت في التسجيل في البداية كعقدة صحية.

الخطوات التالية

استخدم مناطق التوافر لزيادة الإتاحة العالية مع أحمال عمل مجموعة AKS الخاصة بك.