توصيات للاستجابة لمشكلات الأداء المباشر

ينطبق على توصية قائمة التحقق من كفاءة أداء Azure Well-Architected Framework هذه:

PE:11 الاستجابة لمشكلات الأداء المباشر. تخطيط كيفية معالجة مشكلات الأداء من خلال دمج خطوط اتصال ومسؤوليات واضحة. عند حدوث حالة إشكالية، استخدم ما تتعلمه لتحديد التدابير الوقائية ودمجها في حمل العمل الخاص بك. تنفيذ أساليب للعودة إلى العمليات العادية بشكل أسرع عند حدوث حالات مماثلة.

يصف هذا الدليل أفضل الممارسات للاستجابة لمشكلات الأداء المباشر. تشير مشكلات الأداء المباشر إلى التحديات والازدحام في الوقت الحقيقي التي يمكن أن تعوق الأداء الأمثل لحمل العمل. لا تؤدي معالجة هذه المشكلات على الفور إلى تسهيل الكشف الفوري عن مشكلات الأداء وتصحيحها فحسب، بل تضمن أيضا أن يفي حمل العمل باستمرار بمقاييس الأداء الخاصة به. قد يؤدي الفشل في معالجتها إلى مضاعفات، بما في ذلك التباطؤ والتعطل وعدم استجابة النظام، وتدهور تجربة المستخدم. يمكنهم أيضا منع المستخدمين من إكمال مهامهم بكفاءة، وبالتالي تشويه سمعة المؤسسة.

التعريفات

المصطلح التعريف
ارتباط البيانات محاذاة السجلات والمقاييس والأحداث من أجزاء مختلفة من حمل العمل لتحديد الأسباب الأساسية.
تحليل السبب الجذري عملية لتحديد العوامل الأساسية المسؤولة عن مشكلة.
الإصلاح الذاتي القدرة على إصلاح المشكلات تلقائيا دون تدخل بشري.
الوقاية الذاتية عمليات التنفيذ داخل حمل العمل لمنع المشكلات المحتملة والفشل.

استراتيجيات التصميم الرئيسية

عندما تواجه مشكلة في الأداء المباشر، يجب أن تكون مستعدا للبيانات الصحيحة وخطة للاستجابة لهذه المشكلة. وينبغي أن تتضمن هذه الخطة خطوط اتصال ومسؤوليات واضحة. الهدف الأساسي هو تنفيذ الحلول التي تسهل العودة السريعة إلى العمليات العادية وتوفير رؤى من الحادث. يعد دمج التدابير الوقائية في سير العمل الخاص بك استراتيجية محورية. الهدف هو إما منع حدوث نفس المشكلة مرة أخرى أو تقليل تأثيراتها على الأداء إذا لم يكن من الممكن منعها.

الاستعداد للمشكلات

الاستجابة المثالية لمشكلات أداء الموقع المباشر دقيقة وسريعة. تتطلب الدقة والسرعة في معالجة الأداء إعدادا. للاستجابة بفعالية لمشكلات الأداء المباشر، من الضروري مراقبة مقاييس الأداء الرئيسية، وتحديد السبب الجذري للمشكلات، وتنفيذ الحلول أو التحسينات المناسبة. لاتخاذ هذه الخطوات، قد تحتاج إلى تحليل سجلات حمل العمل، وإجراء اختبار الأداء، وتحسين التعليمات البرمجية أو التكوينات، وتوسيع نطاق الموارد. توضح الأمثلة التالية بعض المجالات الهامة للتحضير:

  • لديك رسومات تخطيطية دقيقة للبنية. يجب أن تتضمن الرسومات التخطيطية للبنية جميع المكونات وتظهر كيفية تفاعلها. يمكن أن يساعد التمثيل المرئي في تحديد الاختناقات ونقاط الفشل الفردية التي يمكن أن تؤدي إلى تدهور الأداء أو عدم التوفر. من الناحية المثالية، يمكنك التقاط هذه المشكلات وإزالتها قبل أن تسبب مشاكل، ولكن وجود رسم تخطيطي محدث يمكن أن يساعدك في تحديد المشكلات في لحظات الإجهاد العالي.

  • تحقق من الوصول إلى البيانات. تعد البيانات والسجلات من عمليات المراقبة أمرا بالغ الأهمية للاستجابة لمشكلات الأداء في الوقت الحقيقي وإجراء تحليلات السبب الجذري. ولكن من المهم الحفاظ على سلامة البيانات وسريتها. غالبا ما تتطلب الاستجابة لمشكلات أداء الموقع المباشر الوصول إلى البيانات الأساسية التي قد لا يمكن الوصول إليها عادة. تحتاج إلى التأكد من أن الموظفين لديهم حق الوصول إلى البيانات التي يحتاجونها عند ظهور مشكلات. ولكن يجب عليك فقط منح الوصول المقيد زمنيا والأقل امتيازا، ويجب عليك تقييد هذا الوصول إلى الموظفين المصرح لهم.

  • تعيين التنبيهات التلقائية. يمكن أن تساعدك التنبيهات في تحديد المشكلات ومعالجتها بمجرد حدوثها. يجب أن تنشئ التنبيهات إعلامات عندما ينحرف أداء حمل العمل عن خطوط أساس الأداء. بمرور الوقت، يجب عليك تعديل تكوينات التنبيه لتجنب إنشاء إعلامات كثيرة جدا أو قليلة جدا. تحتاج حلول المراقبة التي تستخدمها إلى جمع بيانات كافية لإنشاء تنبيهات. يجب أن تتوافق هذه التنبيهات مع أهداف الأداء والخطوط الأساسية المحددة. يجب تجنب إنشاء تنبيهات حول المشكلات ذات الصلة بأهدافك. تتضمن أمثلة التنبيهات تدهورا في استخدام وحدة المعالجة المركزية والذاكرة وأوقات الاستجابة وأداء قاعدة البيانات.

إنشاء خطة فرز

يتضمن إنشاء خطة فرز وضع نهج منظم لتحديد مشكلات أداء الموقع المباشر وتصعيدها وتحليلها وتحديد أولوياتها وإبلاغها. خطة الفرز هي استراتيجية للاستجابة لمشكلات الأداء المباشر. وهو يضمن معالجة اضطرابات الأداء بسرعة وفعالية، بأدوار وإجراءات واضحة. لا تستحق معظم مشكلات الأداء بروتوكولات الإصلاح بعد كارثة، ولكنها يمكن أن تؤثر على وظائف حمل العمل بما يكفي لطلب تخطيط الفرز. تضمن خطة الفرز الموثقة جيدا محاذاة جميع أعضاء الفريق ويمكنهم العمل بسرعة، ما يقلل من التأثير على المستخدمين وأحمال العمل. يجب أن تتضمن خطة الفرز المكونات التالية:

  • التعريف والمراقبة: تنفيذ نظام لتحديد ومراقبة مشكلات الأداء في الوقت الفعلي. يجب أن يكون لديك قائمة بمعلومات الاتصال للأشخاص القادرين على اتخاذ القرارات أو تصعيد المشكلات إلى مستويات أعلى. وينبغي أن تحدد الخطة أيضا الأدوار والمسؤوليات. يحتاج إلى توثيق الحسابات التي تحصل على حق الوصول إلى المعلومات المحمية ومدة الوصول إليها.

  • عملية التصعيد: حدد عملية تصعيد واضحة لضمان تصعيد مشكلات الأداء إلى الفرق أو الأفراد المناسبين في الوقت المناسب. يجب أن يتضمن تعريف العملية معلومات الاتصال وإرشادات لتصعيد المشكلات.

  • تحليل السبب الجذري: تطوير عملية لإجراء تحليل السبب الجذري لتحديد السبب الأساسي لكل مشكلة أداء. يجب أن تتضمن العملية تحليل السجلات ومقاييس الأداء وإجراء اختبارات التشخيص لتحديد مصدر كل مشكلة.

  • ترتيب الأولويات: إنشاء إطار عمل لتحديد الأولويات لتحديد خطورة مشكلات الأداء وتحديد أولوياتها بناء على تأثيرها على حمل العمل والمستخدمين.

  • الاتصال: إنشاء خطة اتصال لإبقاء المساهمين على علم بحالة مشكلات الأداء والتقدم المحرز في حلها. ضع في اعتبارك التحديثات العادية وتقارير الحالة وقنوات الاتصال الواضحة.

  • الوثائق: توثيق خطة الفرز، بما في ذلك جميع خطواتها وعملياتها وأفضل ممارساتها. يجب أن تكون هذه الوثائق متاحة بسهولة لأعضاء الفريق المشاركين في الاستجابة لمشكلات الأداء.

تطوير أساليب لتحديد المشكلات وحلها

يتضمن حل مشكلات الأداء المباشر تحديد ومعالجة أي عوامل يمكن أن تتسبب في تدهور الأداء أو عدم الكفاءة في حمل العمل المباشر. البيانات التي تجمعها أثناء المراقبة لا تقدر بثمن عند التحقيق في الحوادث المتعلقة بالأداء وحلها. توفر هذه البيانات سجلا تاريخيا لمقاييس الأداء. عندما تكون لديك بيانات مراقبة متاحة، يمكنك تحليل الأسباب الجذرية وتحديد العوامل المساهمة. يجب عليك استخدام جميع بيانات المراقبة ذات الصلة لفهم كل مشكلة في الأداء وإصلاحها.

استخدام تحليل السبب الجذري

يتطلب تحليل السبب الجذري اختبار الفرضية. بعد مراجعة بيانات المراقبة، يجب عليك سرد الأسباب المحتملة لمسألة الأداء واختبارها. لإجراء تحليل السبب الجذري لمسألة الأداء المباشر، يمكنك اتباع الخطوات التالية:

  1. جمع المعلومات. جمع أكبر قدر ممكن من المعلومات حول مشكلة الأداء. تتضمن الأمثلة رسائل الخطأ والسجلات ومقاييس الأداء وأي بيانات أخرى ذات صلة.

  2. حدد المشكلة. حدد المشكلة بوضوح عن طريق تحديد الأعراض وتأثير المشكلة على حمل العمل أو المستخدمين.

  3. التحقيق في الأسباب المحتملة. تضييق نطاق التحليل عن طريق تحديد المكون المحدد أو منطقة حمل العمل حيث تحدث مشكلة الأداء. تحديد الأسباب المحتملة لمسألة الأداء استنادا إلى المعلومات التي تم جمعها. يمكن أن تتضمن هذه العملية تحليل التعليمات البرمجية أو إعدادات التكوين أو البنية الأساسية أو التبعيات الخارجية.

  4. ربط البيانات. التعمق في البيانات المجمعة لتحديد الأنماط أو الحالات الشاذة أو الارتباطات التي قد تساهم في مشكلة الأداء. ارتباط البيانات هو المفتاح لتحديد مشكلات الأداء وأسبابه. يمكن أن يتضمن مراجعة السجلات وتحليل مقاييس الأداء وإجراء الاختبارات.

  5. اختبار الفرضيات. صياغة الفرضيات استنادا إلى الأسباب المحتملة التي تحددها. قم بإجراء اختبارات للتحقق من صحة فرضياتك أو دحضها. يجب استخدام بيئة اختبار لمعرفة ما إذا كان يمكنك نسخ الخطأ نسخا متماثلا.

  6. تنفيذ الحلول. بمجرد تحديد سبب جذري، قم بتطوير وتنفيذ حلول لمعالجة مشكلة الأداء.

  7. المراقبة والتحقق من الصحة. بعد تنفيذ الحلول، راقب حمل العمل باستمرار للتأكد من حل مشكلة الأداء. تحقق من فعالية الحلول من خلال مراقبة مقاييس الأداء وملاحظات المستخدم.

المفاضلة: يمكن أن تستغرق خطوات تحليل السبب الجذري، مثل تحديد الأسباب المحتملة، واختبار الفرضيات، وتوثيق التحليل، وقتا طويلا. لربط مشكلات الأداء، تحتاج أيضا إلى جمع البيانات وتخزينها. يمكن أن يضيف الوقت والبنية الأساسية المطلوبان عملا كبيرا إلى فرق العمليات والتكلفة إلى حمل العمل.

المخاطر: إذا قمت بإجراء تحليل السبب الجذري دون حواجز أمان مناسبة، فهناك خطر من كشف المعلومات الحساسة عند توفير الوصول إلى السجلات والبيانات.

إشراك دعم المورد

يمكن أن يكون دعم الموردين خطوة أساسية عند التعامل مع مشكلات الأداء المستمرة. يتمتع البائعون بالخبرة والأدوات والموارد والخبرة للمساعدة في إصلاح المشكلات المتعلقة بمنتجاتهم. تحدد اتفاقية الدعم الخاصة بك مع المورد مستوى الدعم الذي يقدمه المورد.

غالبا ما يكون من الأفضل العمل بالتوازي مع الموردين. يجب عليك إنشاء خطة لجعل بعض أعضاء الفريق يتعاونون مع دعم الموردين بينما يستمر الآخرون في فرز مشكلات الأداء وإصلاحها. يمكن لفرق دعم الموردين أيضا تقديم اقتراحات حول كيفية المساعدة في منع الاستجابات لأحداث مماثلة وأتمتتها.

تحتاج إلى توفر معلومات الاتصال لموظفيك. قد يحتاج البائعون أيضا إلى الوصول إلى البيانات للمشاركة بفعالية في حل المشكلات. يجب أن يكون لديك خطة لمصادقة الحسابات الخارجية أو الضيف وتخويلها للوصول إلى بيانات المراقبة.

التعلم من النتائج

بعد إصلاح مشكلة أداء الموقع المباشر، تحتاج إلى مراجعة ما حدث. الهدف هو التعلم من مشكلات الأداء، وليس فقط تحديد المشاكل. أفضل طريقة للتعلم هي من خلال الوثائق. توثيق كل مشكلة وشرح كيفية إصلاحها. إذا ساعد أحد الموردين، فاعمل مع المورد لتحسين وثائقك، وتدريب فريقك، وتعديل حمل العمل وفقا لذلك.

يجب أن تشير الوثائق إلى كيفية منع كل مشكلة من الحدوث مرة أخرى. تتمثل إحدى الطرق لتجنب المشاكل المتكررة في إدخال الأتمتة للاستجابة للمشكلات الشائعة. يجب أن تضيف الأتمتة صفات الشفاء الذاتي والوقاية الذاتية إلى حمل العمل. إلى جانب التنفيذ التلقائي، يمكنك إنشاء تنبيهات محسنة تساعدك على الاستجابة مبكرا لمؤشرات مشكلة الأداء.

تسهيل Azure

تطوير أساليب لتحديد المشكلات وحلها: يوفر Azure العديد من الأدوات لمساعدتك في الاستجابة لمشكلات الأداء المباشر:

  • Azure Monitor هو حل مراقبة شامل يوفر رؤى حول أداء وصحة التطبيقات والبنية الأساسية الخاصة بك. توفر المراقبة ميزات مثل المقاييس والسجلات والتنبيهات ولوحات المعلومات لمساعدتك في مراقبة مشكلات الأداء وتشخيصها.

  • Application Insights هي خدمة إدارة أداء التطبيق (APM) التي تساعد المطورين ومحترفي DevOps على مراقبة التطبيقات المباشرة. يكتشف تلقائيا الحالات الشاذة في الأداء، ويجمع السجلات والأحداث على مستوى التطبيق، ويوفر أدوات تحليلات لتشخيص المشكلات.

  • Log Analytics هي خدمة تجمع بيانات السجل وتحللها من مصادر مختلفة، بما في ذلك التطبيقات والأجهزة الظاهرية وموارد Azure. عند استخدام Log Analytics، يمكنك الاستعلام عن بيانات السجل وتحليلها للحصول على رؤى حول أداء وسلوك تطبيقاتك.

قائمة مراجعة كفاءة الأداء

راجع المجموعة الكاملة من التوصيات.