Karakteristik dan siklus hidup insiden
Seperti yang Anda pelajari di unit terakhir, insiden adalah gangguan layanan yang memengaruhi pelanggan dan pengguna akhir Anda. Insiden datang dalam banyak bentuk, mulai dari perlambatan performa yang membuat pengguna frustrasi ("lambat adalah yang baru turun") hingga crash sistem yang membuat layanan atau situs benar-benar tidak tersedia untuk jangka waktu tertentu.
Karakteristik insiden
Insiden biasanya tidak terduga dan tampaknya terjadi pada waktu terburuk yang mungkin (seperti pukul 02.00, atau ketika Anda sangat terbenam dalam proyek penting). Inilah sebabnya mengapa insiden umumnya ditakuti dan dihindari, bahkan sampai pada titik di mana orang kadang-kadang downplay signifikansi dari suatu insiden. Tekanan internal terkadang begitu besar dalam organisasi ada godaan untuk menyalahkan label atau gagal melaporkan gangguan karena takut diteguran.
Setidaknya, insiden menciptakan pekerjaan yang tidak direncanakan, dan karena Anda menghabiskan sebagian besar waktu Anda melakukan pekerjaan terencana dengan ide yang baik tentang apa yang seharusnya Anda lakukan, Anda mungkin menganggap insiden sebagai hal buruk. Namun, ada cara lain untuk melihatnya: insiden benar-benar investasi* dalam memberikan nilai yang ingin Anda berikan kepada pengguna akhir. Apa pun penyebab insiden atau sejauh mana dampaknya, semua insiden memiliki satu kesamaan: insiden tersebut dapat memberikan pengalaman belajar yang berharga.
Anda harus melihat insiden sebagai denyut nadi sistem Anda. Mereka memberi tahu Anda lebih banyak tentang sistem daripada yang Anda pahami sebelumnya, dan pengetahuan itu adalah hal yang baik. Ketika Anda memiliki fondasi pemantauan yang kuat dan mengetahui lebih banyak tentang apa yang terjadi dalam sistem Anda, itu pasti akan menghasilkan lebih banyak peringatan dan insiden dan peluang untuk merespons. Setidaknya, insiden memberi tahu Anda apa yang terjadi, dan dengan demikian meningkatkan kesadaran operasional Anda. Dalam modul sebelumnya tentang pemantauan, kami menyarankan ini adalah prekursor penting untuk pekerjaan keandalan.
Siklus hidup insiden
Jika Anda ingin meningkatkan status tim respons insiden Anda menjadi "elite/high performer," Anda harus melihat di luar gagasan tentang gangguan layanan atau insiden sebagai garis waktu linier sederhana dan mendekatinya dari perspektif siklik.
Anda dapat memisahkan siklus hidup insiden menjadi fase berbeda yang secara logis mengikuti satu demi satu dalam siklus yang kembali ke awal. Setiap kali Anda mengelilingi siklus ini (dan Anda akan melakukannya berkali-kali), jika Anda menanganinya dengan benar, Anda dapat kembali ke awal dengan wawasan yang lebih besar tentang sistem Anda. Dengan beberapa pekerjaan yang disengaja, Anda juga dapat lebih siap untuk merespons dengan cepat dan efektif lain kali insiden terjadi.
Fase respons insiden
Fase individual dari proses respons insiden terlihat sedikit berbeda tergantung pada model yang Anda gunakan. Untuk tujuan modul ini, ada lima fase yang Anda lalui dalam menanggapi insiden:
- Deteksi: Fase ini adalah tempat pengetahuan pemantauan dari modul sebelumnya dalam jalur pembelajaran ini mulai dimainkan. Alat pemantauan Anda mengumpulkan informasi dari log, menganalisis informasi tersebut sesuai dengan tujuan yang berpusat pada pelanggan yang telah Anda konfigurasi, dan mengirimi Anda pemberitahuan yang dapat ditindaklanjuti untuk memberi tahu Anda bahwa intervensi manusia diperlukan.
- Respons: Fase inilah yang terjadi setelah Anda dan tim Anda menerima pemberitahuan tersebut. Kita akan mempelajari fase ini secara rinci dalam modul ini, jadi akan ada banyak lagi yang dapat dikatakan tentang ide ini hanya dalam sekejap.
- Remediasi: Fase ini adalah tempat Anda memulihkan sistem ke fungsionalitas normal. Bagaimana Anda melakukannya tergantung pada penyebab gangguan layanan. Mendapatkan layanan mencadangkan dan menjalankan serta tersedia untuk pelanggan Anda adalah prioritas utama Anda. Namun, pekerjaan Anda tidak berhenti setelah selesai.
- Analisis: Untuk mendapatkan nilai abadi dari insiden, Anda perlu belajar dari insiden tersebut. Fase ini adalah proses pengumpulan informasi tentang apa yang terjadi dan kapan selama insiden dan melihat apa yang dapat Anda pelajari darinya dengan mengajukan pertanyaan yang tepat. Ada seluruh modul pada Pembelajaran dari Kegagalan yang mengatasi fase ini.
- Kesiapan: Anda harus memasukkan pelajaran yang dipelajari dalam fase analisis ke dalam praktik operasi Anda. Jika ada item tindakan yang akan membantu mencegah pemadaman serupa di masa mendatang, item tersebut juga akan menjadi bagian dari fase ini.
Sebelum membuat rencana respons insiden, Anda perlu memahami karakteristik dan nilai insiden dan terbiasa dengan fase siklus hidup insiden. Langkah selanjutnya adalah memastikan bahwa strategi respons Anda dibangun di atas fondasi yang kokoh.