استكشاف أخطاء صحة المورد وإصلاحها، ومشاكل التوفر الواردة

هذه المقالة هي دليل للتحقيق في القضايا التي تؤثر على توفر IP لموازنة التحميل الخاص بك وموارد الخلفية.

يُستخدم التحقق من صحة الموارد (RHC) لموازنة التحميل لتحديد صحة موازنة التحميل. وهو يحلل مقياس توفر مسار البيانات على مدى فاصل زمني مدته دقيقتان لتحديد ما إذا كانت نقاط نهاية موازنة التحميل ومجموعات منافذ IP الأمامية ومجموعات منافذ الواجهة الأمامية مع قواعد موازنة التحميل متوفرة.

ملاحظة: RHC غير مدعوم لموازنة تحميل SKU الأساسية

يصف الجدول أدناه منطق صحة الموارد (RHC) المُستخدم لتحديد الحالة الصحية لموازنة التحميل.

الحالة الصحية للموارد ‏‏الوصف
متاح مورد موازنة التحميل القياسي الخاص بك صحي ومتاح.
متدهور تحتوي موازنة التحميل القياسية على نظام أساسي أو أحداث بدأها المستخدم تؤثر على الأداء. تم الإبلاغ عن مقياس توفر Datapath على أنه أقل من 90٪ ولكنه أكبر من 25٪ من الصحة لمدة دقيقتين على الأقل. تواجه انخفاضا متوسطا إلى حادا في الأداء.
غير متوفر مورد موازن التحميل القياسي الخاص بك غير سليم. أبلغ مقياس توفر Datapath عن صحة أقل من 25٪ لمدة دقيقتين على الأقل. تواجه تدهورا كبيرا في الأداء أو نقصا في التوفر للاتصال الوارد. يمكن أن تكون هناك أحداث مستخدم أو نظام أساسي تتسبب في عدم التوفر.
‏‏غير معروف لم تقم حالة صحة الموارد لمورد موازن التحميل القياسي بتحديث معلومات توفر مسار البيانات أو تلقيها في آخر 10 دقائق. هذه الحالة عابرة وستعكس الحالة الصحيحة بمجرد تلقي البيانات.

حول المقاييس التي نستخدمها

المقياسان المطلوب استخدامهما هما توفرمسار البيانات وحالة فحص الصحة ومن المهم فهم معناهما لاشتقاق رؤى صحيحة.

توفر مسار البيانات

يتم إنشاء مقياس توفر مسار البيانات بواسطة اختبار اتصال TCP كل 25 ثانية على كافة منافذ الواجهة الأمامية التي تحتوي على موازنة التحميل وقواعد ترجمة عناوين الشبكة (NAT) الواردة المُكونة. يتم توجيه اختبار اتصال TCP هذا إلى أي من المثيلات الخلفية السليمة (المجسة). إذا تلقت الخدمة استجابة ل ping، فهي استجابة ناجحة ويتم تكرار مجموع المقياس مرة واحدة. إذا لم يكن هناك استجابة، فلن يحدث تكرار. عدد هذا المقياس هو 1/100 من إجمالي اختبارات اتصال TCP لكل فترة عينة. وبالتالي، نريد أن ننظر في المتوسط، وهو متوسط المجموع/العدد للفترة الزمنية. تظهر البيانات مقياس توفر المسار المجمع حسب المتوسط وبالتالي يعطينا معدل نجاح النسبة المئوية لعمليات اختبار اتصال TCP على IP:port للواجهة الأمامية لكل من قواعد NAT لموازنة التحميل والواردة.

حالة الفحص الصحي

يتم إنشاء مقياس حالة الفحص الصحي بواسطة اختبار اتصال من البروتوكول المحدد في الفحص الصحي. يُرسل اختبار الاتصال هذا إلى كل مثيل في تجمع الخلفية وعلى المنفذ المُحدد في الفحص الصحي. بالنسبة إلى فحوصات HTTP وHTTPS، يتطلب إجراء اختبار اتصال ناجح استجابة موافقة HTTP 200، بينما مع فحوصات TCP تعتبر أي استجابة ناجحة. تحدد النجاحات أو الإخفاقات المتتالية لكل فحص صحة مثيل الخلفية وما إذا كان تجمع الخلفية المعين قادرا على تلقي نسبة استخدام الشبكة. على غرار توفر مسار البيانات، نستخدم متوسط التجميع الذي يخبرنا متوسط اختبارات الاتصال الناجحة/الكلية خلال الفاصل الزمني لأخذ العينات. تشير قيمة حالة الفحص الصحي هذه إلى صحة الخلفية بمعزل عن موازنة التحميل الخاص بك عن طريق فحص مثيلات الخلفية دون إرسال نسبة استخدام الشبكة عبر الواجهة الأمامية.

هام

يتم أخذ عينات من حالة الفحص الصحي على أساس دقيقة واحدة. يمكن أن يؤدي هذا إلى تقلبات طفيفة في قيمة ثابتة خلاف ذلك. على سبيل المثال، إذا كان هناك مثيلان خلفيان، أحدهما نجح فحصه و الآخر تعطل فحصه، فقد تلتقط خدمة الفحص الصحي 7 عينات للمثيل الصحي و6 للمثيل غير الصحي. سيؤدي هذا إلى قيمة ثابتة مسبقًا من 50 تظهر على أنها 46.15 لفترة دقيقة واحدة.

تشخيص موازنات التحميل المتدهورة وغير المتوفرة

كما هو موضح في مقالة صحة المورد، فإن موازن التحميل المتدهور هو موازن يظهر توفر مسار البيانات بنسبة تتراوح بين 25٪ و90٪. موازن التحميل غير المتوفر هو واحد مع توفر مسار بيانات أقل من 25٪، على مدى دقيقتين. يمكن اتخاذ نفس الخطوات للتحقيق في الفشل الذي تراه في أي حالة فحص صحة أو تنبيهات توفر مسار البيانات التي قمت بتكوينها. نستكشف الحالة التي تحققنا فيها من صحة مواردنا ووجدنا أن موازن التحميل غير متوفر مع توفر مسار بيانات بنسبة 0٪ - خدمتنا معطلة.

أولا، ننتقل إلى عرض المقاييس التفصيلي لصفحة نتائج تحليلات موازن التحميل في مدخل Microsoft Azure. الوصول إلى طريقة العرض من صفحة مورد موازن التحميل أو الارتباط في رسالة صحة المورد. بعد ذلك ننتقل إلى علامة التبويب توفر الواجهة الأمامية والخلفية ونُراجع نافذة مدة فترتها الزمنية 30 دقيقة التي حدثت فيها الحالة المتدهورة أو غير المتوفرة. إذا رأينا أن توفر مسار البيانات لدينا هو 0٪، فإننا نعلم أن هناك مشكلة تمنع حركة المرور لجميع قواعد NAT الواردة وموازنة التحميل، ويمكننا أن نرى المدة التي استمرت فيها هذه المشكلة.

المكان التالي الذي نحتاج إلى البحث فيه هو مقياس حالة الفحص الصحي لتحديد ما إذا كان مسار البيانات غير متوفر أم أنه ليس لدينا مثيلات خلفية صحية لخدمة نسبة استخدام الشبكة. إذا كان لدينا مثيل خلفية سليم واحد على الأقل لجميع قواعد موازنة التحميل والواردة، فإننا نعلم أنه ليس تكويننا الذي يتسبب في عدم توفر مسارات البيانات لدينا. يشير هذا السيناريو إلى وجود مشكلة في النظام الأساسي ل Azure. في حين أن مشكلات النظام الأساسي نادرة، يتم إرسال تنبيه تلقائي إلى فريقنا لحل جميع مشكلات النظام الأساسي بسرعة.

تشخيص فشل الفحص الصحي

لنفترض أننا نتحقق من حالة الفحص الصحي لدينا، واكتشفنا أن جميع المثيلات تظهر على أنها غير صحية. تفسر هذه النتيجة سبب عدم توفر مسار البيانات الخاص بنا لأن نسبة استخدام الشبكة ليس لديها مكان تذهب إليه. يجب بعد ذلك مراجعة قائمة التحقق التالية لاستبعاد أخطاء التكوين الشائعة:

  • تحقق من استخدام وحدة المعالجة المركزية لمواردك لتحديد ما إذا كانت تحت حمولة عالية.
  • إذا كان استخدام فحص HTTP أو HTTPS تحقق مما إذا كان التطبيق سليما ومستجيبا.
    • التحقق من صحة التطبيق يعمل عن طريق الوصول مباشرة إلى التطبيقات من خلال عنوان IP الخاص أو عنوان IP العام على مستوى المثيل المرتبط بمثيل الخلفية.
  • راجع مجموعات أمان الشبكة المُطبقة على الموارد الخلفية. تأكد من عدم وجود قواعد ذات أولوية أعلى من AllowAzureLoadBalancerInBound التي تحظر التحقيق الصحي.
    • يمكنك القيام بذلك عن طريق زيارة إعدادات الشبكات للأجهزة الظاهرية الخلفية أو مجموعات مقياس الجهاز الظاهري.
    • إذا وجدت أن مشكلة NSG هذه هي الحالة، فانقل قاعدة السماح الموجودة أو أنشئ قاعدة أولوية عالية جديدة للسماح بنسبة استخدام الشبكة AzureLoadBalancer.
  • تحقق من نظام التشغيل الخاص بك. تأكد من أن الأجهزة الظاهرية الخاصة بك تستمع إلى منفذ الفحص وراجع قواعد جدار حماية نظام التشغيل الخاصة بهم للتأكد من أنها لا تمنع حركة مرور الفحص التي تنشأ من عنوان 168.63.129.16IP .
    • يمكنك التحقق من منافذ الاستماع عن طريق التشغيل netstat -a من موجه أوامر Windows أو netstat -l من محطة Linux الطرفية.
  • تأكد من استخدامك للبروتوكول الصحيح. على سبيل المثال، فشل فحص باستخدام HTTP لفحص منفذ يستمع لتطبيق غير HTTP.
  • لا ينبغي وضع جدار حماية Azure في تجمع الواجهة الخلفية لموازنات التحميل. راجع دمج Azure Firewall مع Azure Standard Load Balancer لدمج Azure Firewall بشكل صحيح مع موازن التحميل.

إذا كنت قد مررت بقائمة التحقق هذه ولا تزال تعثر على حالات فشل فحص السلامة، فقد تكون هناك مشكلات نادرة في النظام الأساسي تؤثر على خدمة الفحص للمثيلات الخاصة بك. في هذه الحالة، سيساندك Azure ويُرسل تنبيه تلقائي إلى فريقنا لحل جميع مشكلات النظام الأساسي بسرعة.

الخطوات التالية