Rekomendasi untuk merancang strategi respons darurat

Berlaku untuk rekomendasi daftar periksa Azure Well-Architected Framework Operational Excellence ini:

OE:08 Mengembangkan praktik operasi darurat yang efektif. Pastikan beban kerja Anda memancarkan sinyal kesehatan yang bermakna di seluruh infrastruktur dan kode. Kumpulkan data yang dihasilkan dan gunakan untuk menghasilkan pemberitahuan yang dapat ditindakkan yang memberlakukan respons darurat melalui dasbor dan kueri. Tentukan tanggung jawab manusia dengan jelas, seperti rotasi saat panggilan, manajemen insiden, akses sumber daya darurat, dan postmortem yang berjalan.

Panduan ini menjelaskan rekomendasi untuk merancang strategi respons darurat. Beberapa masalah yang muncul selama siklus hidup beban kerja cukup penting untuk menjamin menyatakan mereka darurat. Anda dapat menerapkan proses dan prosedur yang terkontrol dan terfokus dengan ketat yang dapat diikuti tim Anda untuk memastikan bahwa masalah ditangani dengan tenang dan teratur. Keadaan darurat secara alami meningkatkan tingkat stres semua orang dan dapat menyebabkan lingkungan kacau jika tim Anda tidak siap. Untuk membantu meminimalkan stres dan kebingungan, rancang strategi respons, bagikan strategi respons dengan organisasi Anda, dan lakukan pelatihan respons darurat reguler.

Strategi desain utama

Strategi respons darurat harus menjadi serangkaian proses dan prosedur yang teratur dan terdefinisi dengan baik. Setiap proses dan prosedur harus memiliki skrip untuk memastikan bahwa setiap langkah memajukan tim Anda menuju masalah dengan cepat dan aman. Untuk mengembangkan strategi respons darurat, pertimbangkan gambaran umum berikut:

  • Prasyarat
    • Mengembangkan platform observabilitas
    • Membuat rencana respons insiden
  • Fase insiden
    • Deteksi
    • Penahanan
    • Triase
  • Fase pasca-insiden
    • Analisis akar masalah (RCA)
    • Pasca-mortem
  • Aktivitas yang sedang berlangsung
    • Latihan tanggap darurat

Bagian berikut memberikan rekomendasi untuk masing-masing fase ini.

Observabilitas

Untuk memiliki strategi respons darurat yang kuat, Anda harus memiliki platform observabilitas yang kuat. Platform pengamatan Anda harus memiliki karakteristik berikut:

  • Pemantauan holistik: Pastikan Anda memantau beban kerja Anda secara menyeluruh dari perspektif infrastruktur dan aplikasi.

  • Pengelogan verbose: Aktifkan pengelogan verbose untuk komponen Anda untuk membantu penyelidikan saat Anda melakukan triase masalah. Log struktur sehingga mudah dikelola. Secara otomatis mengirim log ke sink data yang akan disiapkan untuk analisis.

  • Dasbor yang berguna: Buat dasbor berbasis model kesehatan yang disesuaikan dengan setiap tim di seluruh organisasi Anda. Tim yang berbeda bertanggung jawab atas berbagai aspek kesehatan beban kerja.

  • Pemberitahuan yang dapat ditindakkan: Buat pemberitahuan yang berguna untuk tim beban kerja Anda. Hindari pemberitahuan yang tidak memerlukan tindakan dari tim Anda. Terlalu banyak pemberitahuan semacam ini dapat menyebabkan orang mengabaikan atau memblokir pemberitahuan pemberitahuan.

  • Pemberitahuan otomatis: Pastikan bahwa tim yang sesuai secara otomatis menerima pemberitahuan yang memerlukan tindakan dari mereka. Misalnya, tim dukungan tingkat 1 Anda harus mendapatkan pemberitahuan untuk semua pemberitahuan, sedangkan teknisi keamanan Anda hanya boleh mendapatkan pemberitahuan untuk peristiwa keamanan.

Untuk informasi selengkapnya, lihat Rekomendasi untuk merancang dan membuat kerangka kerja pengamatan.

Rencana respons insiden

Fondasi strategi respons darurat adalah rencana respons insiden. Seperti rencana pemulihan bencana, tentukan peran, tanggung jawab, dan prosedur secara jelas dan menyeluruh untuk rencana respons insiden. Paket harus berupa dokumen yang dikontrol versi yang tunduk pada tinjauan reguler yang memastikannya sudah diperbarui.

Tentukan komponen berikut dengan jelas dalam paket Anda.

Peran

Identifikasi manajer respons insiden. Orang ini memiliki insiden dari inisiasi hingga remediasi ke analisis akar penyebab. Manajer respons insiden memastikan bahwa proses diikuti dan pihak yang sesuai diberitahu sebagai tim respons melakukan pekerjaan mereka.

Identifikasi pemimpin pascamortem. Individu ini memastikan bahwa postmortem dilakukan segera setelah insiden diselesaikan. Mereka menghasilkan laporan, yang membantu Anda menerapkan temuan yang keluar dari insiden tersebut.

Proses dan prosedur

Tim beban kerja Anda harus menentukan dan memahami kriteria darurat. Ketika tim Anda menentukan bahwa kasus parah, Anda dapat mendeklarasikan bencana dan memulai rencana pemulihan bencana. Dalam kasus yang kurang parah, masalah ini mungkin tidak memenuhi kriteria bencana. Tetapi Anda masih harus mempertimbangkan masalah ini sebagai keadaan darurat, yang mengharuskan memulai rencana respons darurat. Keadaan darurat dapat menjadi masalah yang bersifat internal untuk beban kerja Anda, atau dapat menjadi akibat dari masalah dengan dependensi beban kerja Anda. Tim dukungan harus dapat menentukan apakah masalah yang dilaporkan oleh pengguna eksternal memenuhi kriteria darurat, bahkan jika mereka tidak memiliki visibilitas ke dalam masalah yang mendasar.

Tentukan rencana komunikasi dan eskalasi dengan tepat. Berdasarkan jenis pemberitahuan pemberitahuan yang mereka terima, pastikan bahwa dukungan tingkat-1 Anda dapat dengan mudah menghubungi tim yang sesuai untuk meningkatkan masalah. Pastikan mereka mengetahui jenis komunikasi mana yang sesuai untuk pihak internal dan eksternal. Dalam rencana komunikasi dan eskalasi, sertakan daftar jadwal dan staf sesuai panggilan.

Dalam rencana keseluruhan, sertakan skrip penahanan dan triase. Tim mengikuti prosedur langkah demi langkah ini saat mereka melakukan fungsi penahanan dan triase mereka. Sertakan deskripsi tentang apa yang mendefinisikan penutupan insiden.

Item lain untuk disertakan

Dokumentasikan semua alat standar yang akan digunakan selama insiden untuk komunikasi internal, seperti Microsoft Teams, dan untuk melacak aktivitas selama insiden, seperti alat tiket atau alat perencanaan backlog.

Dokumentasikan kredensial darurat Anda, atau dikenal sebagai akun break-glass. Sertakan panduan langkah demi langkah yang menjelaskan bagaimana panduan tersebut harus digunakan.

Buat instruksi latihan respons darurat, dan catat kapan latihan telah dilakukan.

Dokumentasikan tindakan hukum atau peraturan apa pun yang diperlukan, misalnya mengkomunikasikan pelanggaran data.

Deteksi insiden

Ketika Anda memiliki platform pengamatan yang dirancang dengan baik yang memantau anomali dan secara otomatis memperingatkannya, Anda dapat dengan cepat mendeteksi masalah dan menentukan tingkat keparahannya. Jika masalah dianggap darurat, rencana dapat dimulai. Dalam beberapa kasus, tim dukungan tidak diberi tahu melalui platform pengamatan. Pelanggan mungkin melaporkan masalah untuk didukung dengan menggunakan jalan komunikasi tim dukungan. Atau mereka mungkin menjangkau orang-orang yang bekerja sama secara teratur, seperti eksekutif akun atau VP. Tidak peduli bagaimana tim dukungan diberi tahu, mereka harus selalu mengikuti langkah-langkah yang sama untuk memvalidasi masalah dan menentukan tingkat keparahannya. Penyimpangan dari rencana respons dapat menambah stres dan kebingungan.

Penahanan

Langkah pertama dalam remediasi masalah adalah berisi masalah untuk melindungi sisa beban kerja Anda. Strategi penahanan tergantung pada jenis masalah, tetapi biasanya melibatkan penghapusan komponen yang terpengaruh dari jalur alur beban kerja. Misalnya, Anda dapat mematikan sumber daya atau menghapusnya dari jalur perutean jaringan. Administrator sistem, insinyur, dan pengembang senior harus bekerja sama untuk merancang strategi penahanan. Penahanan harus membatasi radius ledakan masalah dan mempertahankan fungsionalitas beban kerja dalam keadaan terdegradasi hingga masalah diselesaikan. Jika komponen yang terpengaruh perlu dapat diakses untuk melakukan triase, sangat penting bahwa aksesnya ke sisa beban kerja diblokir. Sebanyak mungkin, Anda hanya boleh mengakses komponen melalui jalur yang dipisahkan dari beban kerja dan sistem lainnya.

Triase

Setelah berhasil berisi masalah, Anda dapat memulai pekerjaan triase. Langkah-langkah yang Anda ikuti selama triase bergantung pada jenis masalah. Tim untuk area dukungan beban kerja tertentu harus membuat prosedur untuk insiden yang terkait dengan tim mereka. Misalnya, tim keamanan harus melakukan triase masalah keamanan, dan mereka harus mengikuti skrip yang mereka kembangkan. Penting bagi tim untuk mengikuti skrip yang terdefinisi dengan baik saat mereka bekerja melalui upaya triase mereka. Skrip ini harus merupakan proses langkah demi langkah yang mencakup proses putar kembali untuk membatalkan perubahan yang tidak efektif atau dapat menyebabkan masalah lain. Gunakan alat agregasi dan analisis log off-the-shelf untuk menyelidiki masalah yang memerlukan analisis mendalam secara efisien. Setelah masalah diselesaikan, ikuti proses yang terdefinisi dengan baik untuk membawa komponen yang terpengaruh kembali ke jalur alur beban kerja dengan aman.

Pelaporan RCA

Perjanjian tingkat layanan (SLA) kepada pelanggan Anda mungkin menentukan bahwa Anda harus mengeluarkan laporan RCA dalam periode waktu tertentu setelah insiden diselesaikan. Pemilik insiden harus membuat laporan RCA. Jika itu tidak memungkinkan, orang lain yang bekerja sama dengan pemilik insiden dapat membuat laporan RCA. Strategi ini memastikan akuntansi insiden yang akurat. Biasanya, organisasi memiliki templat RCA yang ditentukan dengan panduan tentang bagaimana informasi disajikan dan jenis informasi apa yang dapat atau tidak dapat dibagikan. Jika Anda perlu membuat templat dan panduan Anda sendiri, pastikan templat dan panduan tersebut ditinjau dan disetujui oleh pemangku kepentingan.

Postmortem insiden

Individu yang tidak memihak harus memimpin postmortem tanpa cela. Dalam sesi postmortem, semua orang membagikan temuan mereka dari insiden. Setiap tim yang terlibat dalam respons insiden harus diwakili oleh individu yang mengerjakan insiden tersebut. Individu-individu tersebut harus datang ke sesi yang disiapkan dengan contoh area yang berhasil dan area yang dapat ditingkatkan. Sesi ini bukan forum untuk menetapkan kesalahan atas insiden atau masalah yang mungkin muncul selama respons. Pemimpin postmortem harus meninggalkan sesi dengan daftar item tindakan yang jelas yang berfokus pada peningkatan, seperti:

  • Penyempurnaan rencana respons. Proses atau prosedur mungkin perlu dievaluasi ulang dan ditulis ulang untuk menangkap tindakan yang tepat dengan lebih baik.

  • Peningkatan pada platform pengamatan. Ambang mungkin perlu dievaluasi ulang untuk menangkap jenis insiden tertentu sebelumnya, atau pemantauan baru mungkin perlu diimplementasikan untuk menangkap perilaku yang tidak diperhitungkan.

  • Penyempurnaan beban kerja. Insiden ini mungkin mengekspos kerentanan dalam beban kerja yang harus ditangani sebagai remediasi permanen.

Pertimbangan

Strategi respons yang terlalu agresif dapat menyebabkan alarm palsu atau eskalasi yang tidak perlu.

Demikian pula, menerapkan penskalaan otomatis secara agresif atau tindakan penyembuhan diri lainnya untuk merespons pelanggaran ambang dapat menyebabkan pengeluaran dan beban manajemen yang tidak perlu. Anda mungkin tidak tahu ambang yang tepat untuk diatur untuk peringatan dan tindakan otomatis seperti penskalaan. Lakukan pengujian di lingkungan yang lebih rendah dan dalam produksi untuk membantu Anda menentukan ambang yang tepat untuk kebutuhan Anda.

Fasilitasi Azure

Azure Monitor adalah solusi komprehensif untuk mengumpulkan, menganalisis, dan merespons data pemantauan dari lingkungan cloud dan lokal. Ini termasuk platform peringatan yang kuat yang dapat Anda konfigurasi untuk pemberitahuan otomatis dan tindakan lainnya, seperti penskalaan otomatis dan mekanisme penyembuhan diri lainnya.

Gunakan Monitor untuk mengintegrasikan pembelajaran mesin. Mengotomatiskan dan mengoptimalkan triase insiden dan tindakan proaktif. Untuk informasi selengkapnya, lihat AIOps dan pembelajaran mesin di Monitor.

Log Analytics adalah alat analitik kuat yang dibangun ke dalam Monitor. Anda dapat menggunakan Analitik Log untuk menjalankan kueri terhadap log agregat dan mendapatkan wawasan tentang beban kerja Anda.

Microsoft menawarkan pelatihan kesiapan insiden terkait Azure. Untuk informasi selengkapnya, lihat Pengantar kesiapan insiden Azure dan Kesiapan insiden.

Daftar periksa Keunggulan Operasional

Lihat serangkaian rekomendasi lengkap.