Pentingnya respons insiden

Selesai

Berdasarkan prinsip dan praktik pemantauan yang dibahas dalam modul lain dari jalur pembelajaran ini, Anda sekarang akan mempelajari apa yang harus dilakukan ketika pemantauan Anda mengungkapkan masalah. Jika Anda menerima peringatan yang dapat ditindaklanjuti yang memberi tahu Anda bahwa sistem Anda tidak beroperasi seperti yang diharapkan, itulah pemicu respons untuk menangani masalah tersebut.

Apa itu insiden?

Respons insiden adalah tentang tindakan yang Anda ambil ketika insiden terjadi, tetapi apa sebenarnya yang merupakan insiden? Jawabannya bisa subjektif; bahkan semua insinyur tidak setuju tentang apa itu insiden. Jika Anda mengajukan pertanyaan di berbagai industri dan organisasi, Anda mendapatkan banyak jawaban berbeda.

Beberapa akan melabeli semua gangguan sebagai insiden, terlepas dari apakah pelanggan terpengaruh atau tidak. Dalam konteks modul ini, kita dapat setuju bahwa insiden didefinisikan sebagai gangguan layanan: kemunculan atau kondisi yang memengaruhi kemampuan pengguna untuk menggunakan layanan yang diandalkan. Contohnya termasuk ketika sistem tidak berfungsi atau tidak berfungsi dengan cara yang berdampak pada pelanggan.

Apa itu respons insiden?

Mencegah semua masalah adalah tujuan yang dapat dipuaskan, tetapi tidak mungkin. Segalanya akan salah, jadi kami memerlukan rencana untuk membatasi dampak pada pengguna akhir kami dan mengembalikan operasi ke normal secepat mungkin.

Kuncinya adalah merespons dengan urgensi daripada bereaksi. Sebuah reaksi cenderung lebih impulsif dan didasarkan pada saat ini, tanpa mempertimbangkan efek jangka panjang. Respons dipikirkan dengan baik, terorganisir, dan berbasis informasi.

Pendekatan respons insiden Anda menentukan keefektifan Anda dalam:

  • Memahami apa yang terjadi (mendiagnosis masalah).
  • Triaging (menentukan urgensi) dan memprioritaskan masalah.
  • Melibatkan sumber daya yang tepat untuk mengurangi masalah.
  • Berkomunikasi dengan pemangku kepentingan tentang masalah tersebut.

Setelah memperbaiki masalah, Anda kemudian dapat belajar dari insiden melalui proses peninjauan pasca-insiden. Itu adalah subjek penting yang memiliki nilai modul diskusi yang terpisah.

Mengukur performa respons insiden

Anda mungkin terbiasa dengan Akronim TTR, yang berbagai didefinisikan sebagai "waktu untuk pulih," "waktu untuk memulihkan," atau "waktu untuk memulihkan." Semua varian ini mengacu pada hal yang sama: jumlah total waktu yang diperlukan bagi Anda untuk membawa layanan kembali ke tempat di mana mereka dapat kembali memenuhi harapan pelanggan.

Metrik ini adalah salah satu cara untuk mengukur seberapa baik performa tim saat merespons insiden. Semakin cepat Anda pulihkan/remediasi/memulihkan layanan, semakin sedikit dampak pemadaman atau penurunan layanan.

Penting untuk mengetahui seberapa baik organisasi Anda menangani respons insiden. Setiap tahun, organisasi DevOps Research and Assessment (DORA) merilis laporan State of DevOps. Beberapa temuan utama dalam laporan 2019 berfokus pada performa respons insiden.

  • Laporan mengklasifikasikan tim teknik yang dapat mendeteksi, merespons, dan memulihkan gangguan layanan dalam waktu kurang dari satu jam sebagai "elit atau berkinerja tinggi."
  • Mereka yang dapat pulih dari insiden dalam waktu kurang dari 24 jam diklasifikasikan sebagai "pemain menengah."
  • "Berkinerja rendah" adalah mereka yang membutuhkan waktu antara satu minggu dan sebulan untuk pulih dari gangguan layanan.

Perbedaan antara level ini signifikan. Studi ini menemukan bahwa tim berkinerja tinggi/elit pulih dari insiden 2.604 kali lebih cepat daripada rekan-rekan mereka yang "berkinerja rendah". Elite/berperforma tinggi juga menyebarkan produksi 208 kali lebih sering.

Mengapa dan bagaimana para pemain elit merespons dan pulih jauh lebih cepat daripada yang lain? Setidaknya sebagian karena mereka memahami pentingnya memiliki rencana respons dasar yang baik yang sudah ada ketika segala sesuatunya menjadi salah.

Saat Anda mempelajari modul ini, Anda akan belajar tentang karakteristik dan siklus hidup sebuah insiden dan bagaimana menggunakan pengetahuan itu untuk membuat rencana dasar Anda sendiri.

Uji pengetahuan Anda

1.

Manakah dari berikut ini yang merupakan tujuan untuk respons insiden yang efektif?

2.

Seberapa cepat tim teknik yang diklasifikasikan sebagai "elit atau berperforma tinggi" secara umum mendeteksi, merespons, dan memulihkan gangguan layanan?