Olay yanıtının önemi
Bu öğrenme yolundaki başka bir modülde anlatılan izleme prensiplerinden ve uygulamalarından hareketle izleme süreçlerinizin sonucunda bir sorunla karşılaştığınızda yapmanız gerekenleri öğreneceksiniz. Sistemlerinizin beklendiği gibi çalışmadığını gösteren bir eyleme dönüştürülebilir uyarı alırsanız bunu sorunla ilgilenmek üzere bir tetikleyici olarak kabul edebilirsiniz.
Olay nedir?
Olay yanıtı, bir olay gerçekleştiğinde gerçekleştirdiğiniz eylemlerle ilgili ancak tam olarak olay oluşturan şey nedir? Bu sorunun yanıtı kişiye göre değişebilir. Mühendisler dahi olayın tanımı konusunda bir fikir birliğine varmış değildir. Soruyu farklı sektörlerde ve kuruluşlarda çalışan kişilere yöneltirseniz birçok farklı yanıtla karşılaşabilirsiniz.
Bazıları müşterilerin etkilenip etkilenmemesinden bağımsız olarak tüm kesintileri olay olarak kabul eder. Bu modül bağlamında, bir olayın hizmet kesintisi olarak tanımlandığını kabul edebiliriz: kullanıcının kullandığı hizmetleri kullanma becerisini etkileyen bir oluşum veya koşul. Örnek olarak sistemlerin müşterileri etkileyecek bir şekilde kapalı kalmasını veya hata vermesini gösterebiliriz.
Olay yanıtı nedir?
Tüm sorunları önlemek övgüye değer ama imkansız bir hedeftir. Ters giden şeyler mutlaka olacaktır. Bu nedenle son kullanıcılarımız açısından etkiyi sınırlamak ve operasyonları en kısa zamanda normale dönüştürmek için bir plan yapmamız gerekir.
Önemli olan tepki vermek yerine aciliyetle yanıt vermektir. Tepki; anın sıcaklığıyla, genellikle düşünmeden ve uzun vadeli etkilerini düşünmeden yapılan bir harekettir. Yanıt iyi düşünülmüş, düzenlenmiş ve bilgiye dayalıdır.
Olay yanıtı yaklaşımınız şu alanlarda ne kadar etkili olacağınızı belirler:
- Neler olduğunu anlama (sorunu tanılama).
- Önceliklendirme (aciliyeti belirleme) ve soruna öncelik verme.
- Sorunu azaltmak için doğru kaynakları kullanma.
- Sorun hakkında paydaşlarla iletişim kurma.
Sorunu düzeltdikten sonra, olay sonrası gözden geçirme işlemi aracılığıyla olaydan bilgi edinebilirsiniz. Bu önemlidir ve tamamen bu konuya ayrılmış ayrı bir modül vardır.
Olay yanıtı performansını ölçme
"Kurtarma süresi", "düzeltme süresi" veya "geri yükleme süresi" olarak tanımlanan TTR kısaltmasını biliyor olabilirsiniz. Bu varyantların tümü aynı anlama gelir: Hizmetleri müşterilerin beklentilerini karşılamaya geri dönebilecekleri bir yere geri getirmeniz için gereken toplam süre.
Bu ölçüm, ekiplerin olaylara verdiği yanıtı ölçme yollarından biridir. Hizmeti kurtarma/düzeltme/geri yükleme süreniz ne kadar kısa olursa kesintinin veya düzeyi düşürülmüş hizmetin etkisi de o kadar düşük olur.
Kuruluşunuzun olay yanıtını ne kadar iyi ele almakta olduğunu bilmeniz önemlidir. DevOps Araştırma ve Değerlendirme Kuruluşu (DORA), her yıl bir State of DevOps raporu yayımlamaktadır. 2019 raporundaki bazı önemli bulgular, olay yanıtı performansına odaklanmaktadır.
- Rapor, bir saatten kısa sürede hizmet kesintilerini algılayan, yanıt verebilen ve düzeltebilen mühendislik ekiplerini "elit veya yüksek performanslı" olarak sınıflandırdı.
- 24 saatten kısa bir sürede olaylardan kurtulabilenler "orta performanslı" olarak sınıflandırıldı.
- "Düşük performans gösterenler", hizmet kesintilerinden kurtulması bir hafta ile bir ay arasında sürebilir.
Bu düzeyler arasındaki fark oldukça önemlidir. Çalışma, elit/yüksek performanslı ekiplerin olaylardan "düşük performanslı" meslektaşlarından 2.604 kat daha hızlı iyileştiklerini tespit etti. Elit/yüksek performanslı ekipler ayrıca üretim ortamına 208 kez daha fazla dağıtım yapmaktadır.
Elit/yüksek performanslı ekiplerin yanıt verme ve kurtarma hızı neden diğerlerinden daha yüksektir? Bu soruya yanıt olarak olaylar ortaya çıktığında iyi bir temel yanıt planına sahip olmanın önemini anlamış oldukları gerçeğini verebiliriz.
Bu modülde ilerledikçe bir olayın yaşam döngüsünün özellikleri hakkında bilgi edinecek ve bu bilgiyi kullanarak kendi temel planınızı nasıl oluşturacağınızı öğreneceksiniz.