توصيات لتصميم استراتيجية الاستجابة للطوارئ

ينطبق على توصية قائمة التحقق من التميز التشغيلي في Azure Well-Architected Framework:

OE:08 تطوير ممارسة فعالة لعمليات الطوارئ. تأكد من أن حمل العمل الخاص بك يصدر إشارات صحية ذات معنى عبر البنية الأساسية والرمز. اجمع البيانات الناتجة واستخدمها لإنشاء تنبيهات قابلة للتنفيذ تسن استجابات الطوارئ عبر لوحات المعلومات والاستعلامات. حدد بوضوح المسؤوليات البشرية، مثل التناوب عند الاتصال وإدارة الحوادث والوصول إلى موارد الطوارئ وتشغيل عمليات ما بعد الوفاة.

يصف هذا الدليل توصيات تصميم استراتيجية الاستجابة للطوارئ. بعض القضايا التي تنشأ على مدار دورة حياة حمل العمل بالغة الأهمية بما يكفي لتبرير إعلانها في حالات الطوارئ. يمكنك تنفيذ عمليات وإجراءات خاضعة لرقابة مشددة ومركزة يمكن لفريقك اتباعها لضمان معالجة المشكلة بطريقة هادئة ومنظمة. تؤدي حالات الطوارئ بشكل طبيعي إلى رفع مستويات الضغط على الجميع ويمكن أن تؤدي إلى بيئة فوضوية إذا لم يكن فريقك مستعدا جيدا. للمساعدة في تقليل الإجهاد والارتباك، صمم استراتيجية استجابة، وشارك استراتيجية الاستجابة مع مؤسستك، وقم بإجراء تدريب منتظم على الاستجابة للطوارئ.

استراتيجيات التصميم الرئيسية

وينبغي أن تكون استراتيجية الاستجابة في حالات الطوارئ مجموعة منظمة ومحددة جيدا من العمليات والإجراءات. يجب أن تحتوي كل عملية وإجراء على برامج نصية للتأكد من أن كل خطوة تقدم فريقك نحو حل مشكلة بسرعة وأمان. لتطوير استراتيجية الاستجابة للطوارئ، ضع في اعتبارك النظرة العامة التالية:

  • المتطلبات الأساسية
    • تطوير نظام أساسي للمراقبة
    • إنشاء خطة استجابة لحوادث
  • مراحل الحوادث
    • الكشف عن المشكلات
    • الاحتواء
    • الفرز
  • مراحل ما بعد الحادث
    • تحليل السبب الجذري (RCA)
    • تقرير الموقف
  • النشاط المستمر
    • تدريبات الاستجابة للطوارئ

توفر الأقسام التالية توصيات لكل مرحلة من هذه المراحل.

الملاحظة

للحصول على استراتيجية قوية للاستجابة للطوارئ، تحتاج إلى وجود نظام أساسي قوي للمراقبة. يجب أن يكون للنظام الأساسي لقابلية الملاحظة الخاص بك الخصائص التالية:

  • المراقبة الشاملة: تأكد من مراقبة حمل العمل الخاص بك بدقة من منظور البنية الأساسية والتطبيق.

  • التسجيل المطول: تمكين التسجيل المطول للمكونات للمساعدة في التحقيقات عند فرز مشكلة. سجلات البنية بحيث يسهل إدارتها. إرسال السجلات تلقائيا إلى متلقي البيانات ليتم إعدادها للتحليل.

  • لوحات المعلومات المفيدة: إنشاء لوحات معلومات مستندة إلى نموذج السلامة مصممة خصيصا لكل فريق عبر مؤسستك. الفرق المختلفة مسؤولة عن الجوانب المختلفة لصحة حمل العمل.

  • تنبيهات قابلة للتنفيذ: أنشئ تنبيهات مفيدة لفرق حمل العمل. تجنب التنبيهات التي لا تتطلب إجراء من فرقك. يمكن أن يؤدي عدد كبير جدا من التنبيهات من هذا النوع إلى تجاهل الأشخاص لإشعارات التنبيه أو حظرها.

  • الإعلامات التلقائية: تأكد من أن الفرق المناسبة تتلقى تلقائيا تنبيهات تتطلب إجراء منها. على سبيل المثال، يجب أن يحصل فريق الدعم من المستوى 1 على إعلامات لجميع التنبيهات، بينما يجب أن يحصل مهندسو الأمان على تنبيهات لأحداث الأمان فقط.

لمزيد من المعلومات، راجع توصيات تصميم إطار عمل إمكانية المراقبة وإنشائه.

خطة الاستجابة للحوادث

أساس استراتيجية الاستجابة للطوارئ هو خطة الاستجابة للحوادث. مثل خطة التعافي من الكوارث، حدد بوضوح ودقة الأدوار والمسؤوليات والإجراءات لخطة الاستجابة للحوادث. يجب أن تكون الخطة مستندا خاضعا للتحكم بالإصدار يخضع لمراجعات منتظمة تضمن تحديثها.

حدد بوضوح المكونات التالية في خطتك.

الأدوار

تحديد مدير الاستجابة للحوادث. يمتلك هذا الشخص الحادث من البدء إلى المعالجة إلى تحليل السبب الجذري. يضمن مدير الاستجابة للحوادث اتباع العمليات وإبلاغ الأطراف المناسبة أثناء قيام فريق الاستجابة بعملهم.

تحديد قائد ما بعد الوفاة. يضمن هذا الشخص إجراء عمليات ما بعد الوفاة بعد وقت قصير من حل الحادث. وهي تنتج تقريرا يساعدك على تطبيق النتائج التي تنتج عن الحادث.

العمليات والإجراءات

يجب أن يحدد فريق حمل العمل معايير الطوارئ ويفهمها. عندما يحدد فريقك أن الحالة شديدة، يمكنك الإعلان عن كارثة وبدء خطة التعافي من الكوارث. وفي الحالات الأقل حدة، قد لا تفي هذه المسألة بمعايير الكارثة. ولكن لا يزال يتعين عليك اعتبار المشكلة حالة طوارئ، مما يتطلب بدء خطة الاستجابة للطوارئ. يمكن أن تكون حالات الطوارئ مشكلات داخلية في حمل العمل الخاص بك، أو يمكن أن تكون نتيجة لقضية تتعلق بتبعية حمل العمل الخاص بك. يجب أن يكون فريق الدعم قادرا على تحديد ما إذا كانت المشكلة التي أبلغ عنها المستخدمون الخارجيون تفي بمعايير الطوارئ، حتى إذا لم يكن لديهم رؤية للمشكلة الأساسية.

تحديد خطط الاتصال والتصعيد بدقة. استنادا إلى نوع إعلام التنبيه الذي يتلقونه، تأكد من أن دعم المستوى 1 الخاص بك يمكنه بسهولة الاتصال بالفرق المناسبة لتصعيد المشكلات إليه. تأكد من أنهم يعرفون نوع الاتصال المناسب للأطراف الداخلية والخارجية. في خطط الاتصالات والتصعيد، قم بتضمين قائمة بالجدول الزمني عند الاتصال والموظفين.

في الخطة الشاملة، قم بتضمين البرامج النصية للاحتواء والفرز. تتبع الفرق هذه الإجراءات خطوة بخطوة عند تنفيذ وظائف الاحتواء والفرز الخاصة بها. قم بتضمين وصف لما يعرف إغلاق الحادث.

عناصر أخرى يجب تضمينها

قم بتوثيق جميع الأدوات القياسية التي سيتم استخدامها أثناء الحوادث للاتصال الداخلي، مثل Microsoft Teams، ولتعقب الأنشطة على مدار الحدث، مثل أدوات إصدار التذاكر أو أدوات التخطيط للتراكم.

قم بوثيق بيانات اعتماد الطوارئ الخاصة بك، والمعروفة باسم حسابات كسر الزجاج. قم بتضمين دليل خطوة بخطوة يصف كيفية استخدامها.

إنشاء إرشادات تدريب الاستجابة في حالات الطوارئ، والاحتفاظ بسجل عن وقت إجراء التدريبات.

توثيق أي تدابير قانونية أو تنظيمية ضرورية، على سبيل المثال الاتصال بانتهاكات البيانات.

الكشف عن الحوادث

عندما يكون لديك نظام أساسي جيد التصميم للمراقبة يراقب الحالات الشاذة ويحذرها تلقائيا، يمكنك اكتشاف المشكلات بسرعة وتحديد شدتها. إذا اعتبرت المشكلة طارئة، يمكن بدء الخطة. في بعض الحالات، لا يتم إعلام فريق الدعم عبر النظام الأساسي لقابلية المراقبة. قد يبلغ العملاء عن المشكلات التي يجب دعمها باستخدام طرق اتصال فريق الدعم. أو قد تتواصل مع الأشخاص الذين يعملون معهم بانتظام، مثل المديرين التنفيذيين للحساب أو VPs. بغض النظر عن كيفية إعلام فريق الدعم، يجب عليهم دائما اتباع نفس الخطوات للتحقق من صحة المشكلة وتحديد الخطورة. يمكن أن يؤدي الانحراف عن خطة الاستجابة إلى إضافة الإجهاد والارتباك.

الاحتواء

الخطوة الأولى في معالجة المشكلة هي احتواء المشكلة لحماية بقية حمل العمل الخاص بك. تعتمد استراتيجية الاحتواء على نوع المشكلة، ولكنها عادة ما تتضمن إزالة المكون المتأثر من مسارات تدفق حمل العمل. على سبيل المثال، يمكنك إيقاف تشغيل مورد أو إزالته من مسارات توجيه الشبكة. يجب على مسؤولي النظام والمهندسين وكبار المطورين العمل معا لتصميم استراتيجيات الاحتواء. يجب أن يحد الاحتواء من نصف قطر الانفجار للمشكلات والحفاظ على وظائف حمل العمل في حالة متدهورة حتى يتم حل المشكلة. إذا كان المكون المتأثر بحاجة إلى الوصول إليه لإجراء الفرز، فمن الضروري أن يتم حظر وصوله إلى بقية حمل العمل. قدر الإمكان، يجب عليك فقط الوصول إلى المكون عبر مسار منفصل عن حمل العمل وبقية الأنظمة.

الفرز

بعد أن تحتوي على المشكلة بنجاح، يمكنك بدء عمل الفرز. تعتمد الخطوات التي تتبعها أثناء الفرز على نوع المشكلة. يجب على فريق منطقة معينة من دعم حمل العمل إنشاء إجراءات للحوادث المتعلقة بفريقهم. على سبيل المثال، يجب على فرق الأمان فرز مشكلات الأمان، ويجب أن تتبع البرامج النصية التي تطورها. من المهم أن تتبع الفرق برامج نصية محددة جيدا أثناء عملها من خلال جهود الفرز الخاصة بها. يجب أن تكون هذه البرامج النصية عمليات خطوة بخطوة تتضمن عمليات التراجع للتراجع عن التغييرات غير الفعالة أو التي يمكن أن تسبب مشكلات أخرى. استخدم أدوات تجميع السجلات وتحليلها الجاهزة للتحقيق بكفاءة في المشكلات التي تتطلب تحليلا عميقا. بعد حل المشكلة، اتبع العمليات المحددة جيدا لإعادة المكون المتأثر بأمان إلى مسارات تدفق حمل العمل.

تقارير RCA

قد تملي اتفاقيات مستوى الخدمة (SLAs) لعملائك أن تضطر إلى إصدار تقارير RCA خلال فترة زمنية معينة بعد حل الحادث. يجب على مالك الحدث إنشاء تقارير RCA. إذا لم يكن ذلك ممكنا، يمكن لشخص آخر عمل عن كثب مع مالك الحادث إنشاء تقارير RCA. تضمن هذه الاستراتيجية محاسبة دقيقة للحادث. عادة ما يكون لدى المؤسسات قالب RCA محدد مع إرشادات حول كيفية تقديم المعلومات وأنواع المعلومات التي يمكن مشاركتها أو لا يمكن مشاركتها. إذا كنت بحاجة إلى إنشاء القالب والإرشادات الخاصة بك، فتأكد من مراجعتها والموافقة عليها من قبل المساهمين.

تشريحات الحوادث

يجب على الفرد المحايد أن يقود عمليات تشريح الجثة بدون لوم. في جلسات ما بعد الوفاة، يشارك الجميع نتائجهم من حادث. يجب أن يمثل كل فريق شارك في الاستجابة للحوادث أفراد عملوا على الحادث. وينبغي لهؤلاء الأفراد أن يحضروا إلى الدورة المعدة بأمثلة عن المجالات الناجحة والمجالات التي يمكن تحسينها. الجلسة ليست منتدى لتعيين اللوم عن الحادث أو المشكلات التي قد تظهر أثناء الاستجابة. يجب أن يغادر قائد تشريح الجثة الجلسة مع قائمة واضحة ببنود الإجراءات التي تركز على التحسين، مثل:

  • تحسينات على خطة الاستجابة. قد تحتاج العمليات أو الإجراءات إلى إعادة تقييمها وإعادة كتابتها لالتقاط الإجراءات المناسبة بشكل أفضل.

  • تحسينات على النظام الأساسي لقابلية المراقبة. قد تحتاج الحدود إلى إعادة تقييمها للقبض على النوع المحدد من الحوادث في وقت سابق، أو قد تحتاج المراقبة الجديدة إلى التنفيذ لالتقاط السلوك الذي لم يتم حسابه.

  • تحسينات على حمل العمل. قد يكشف الحادث عن ثغرة أمنية في حمل العمل يجب معالجتها كلمعالجة الدائمة.

الاعتبارات

يمكن أن تؤدي استراتيجية الاستجابة العدوانية للغاية إلى إنذارات كاذبة أو تصعيدات غير ضرورية.

وبالمثل، فإن تنفيذ التحجيم التلقائي أو إجراءات الإصلاح الذاتي الأخرى بقوة للاستجابة لانتهاكات العتبة يمكن أن يؤدي إلى نفقات غير ضرورية وعبء إداري. قد لا تعرف الحدود الدقيقة التي يجب تعيينها للتنبيه والإجراءات التلقائية مثل التحجيم. قم بإجراء الاختبار في بيئات أقل وفي الإنتاج لمساعدتك في تحديد الحدود الصحيحة لمتطلباتك.

تسهيل Azure

Azure Monitor هو حل شامل لجمع وتحليل والاستجابة لبيانات المراقبة من البيئات السحابية والمحلية. يتضمن نظاما أساسيا قويا للتنبيه يمكنك تكوينه للإعلامات التلقائية والإجراءات الأخرى، مثل التحجيم التلقائي وآليات الإصلاح الذاتي الأخرى.

استخدم Monitor لدمج التعلم الآلي. أتمتة وتحسين فرز الحوادث والتدابير الاستباقية. لمزيد من المعلومات، راجع AIOps والتعلم الآلي في Monitor.

Log Analytics هي أداة تحليلات قوية مضمنة في Monitor. يمكنك استخدام Log Analytics لتشغيل الاستعلامات مقابل السجلات المجمعة واكتساب رؤى حول حمل العمل الخاص بك.

تقدم Microsoft التدريب على الاستعداد للحوادث المتعلقة ب Azure. لمزيد من المعلومات، راجع مقدمة حول جاهزية حادث Azureوالاستعداد للحوادث.

قائمة التحقق من التميز التشغيلي

راجع المجموعة الكاملة من التوصيات.