Olay yönetimi (IcM) süreci tasarlamaya yönelik mimari stratejileri

Bu Azure Well-Architected Framework Operasyonel Mükemmellik kontrol listesi önerisine uygulanır:

OE:08 Hızlı algılama, tanılama ve kurtarma için tasarlanmış tanımlı roller, belgelenmiş yordamlar ve mimari ile net, yapılandırılmış bir olay yönetimi süreci oluşturun.

Olaylar oluştuğunda, iş yükü yönetim ekibi net, açık ve yapılandırılmış prosedürlerle hazırlıklı olmalıdır.

Olay yanıtının iki önemli yönü vardır. Birincisi mimaridir ve etkili yanıt yordamlarını destekleyen ve hataların bileşenler arasında geçiş yapmasını önleyen sistemler tasarlamaya odaklanır. İkincisi, sorunları hızlı bir şekilde yönetmek için tespit, sınırlama ve aciliyet değerlendirmesini içeren süreç odaklı yöntemleri kapsar, ardından yinelenmeyi önlemek amacıyla kök neden analizi ve sonuç değerlendirmeleri yapılır. Düzenli tatbikatlar hazır olma durumunu korumaya yardımcı olur ve planın etkili bir şekilde yürütülebilmesini sağlar.

Bu makalede, yanıta yardımcı olan bir mimari tasarlamaya yönelik kanıtlanmış stratejiler ve ekibi sakin, eşgüdümlü ve kontrol altında tutan bir plan özetlenmektedir. Adım adım işlemler ve playbook'lar da dahil olmak üzere ayrıntılı uygulama yönergeleri için yardımcı makaleye bakın: Kesintileri yönetmek için etkili bir olay yönetimi planı oluşturma.

Tanımlar

Süre Definition
Kargaşa Mühendisliği (Chaos Engineering) Dayanıklılık ve kurtarma yordamlarını test etmek için sisteme kasıtlı olarak hatalar veya olumsuz koşullar ekleme.
Çevreleme Bir olayın diğer bileşenleri veya sistemleri etkilemesini önlemek için etkisini sınırlama.
Algılama Bir olayın oluştuğunu veya gerçekleştiğini belirleme.
Olay sonrası inceleme İlgili tüm ekipleri içeren bir olayın yapılandırılmış, suçsuz bir şekilde gözden geçirilmesi, öğrenilen derslerin yakalanması ve süreçler, araçlar ve sistemlerde eyleme dönüştürülebilir iyileştirmelerin tanımlanması.
RCA (Temel Sebep Analizi) Yinelenmeyi önlemek için katkıda bulunan faktörler de dahil olmak üzere bir olayın temel nedenlerinin araştırılması ve tanımlanması.
RPO (Kurtarma Noktası Hedefi) Zaman içinde ölçülen kabul edilebilir maksimum veri kaybı miktarı.
RTO (Kurtarma Süresi Hedefi) Kabul edilemez bir etkiye neden olmadan önce bir sistemin veya hizmetin bir olaydan sonra devre dışı bırakılabilmesi için kabul edilebilir maksimum süre.
Triaj Uygun yanıtı belirlemek için olayları değerlendirme ve önceliklendirme.

Olay yanıt planını belgele

Bir olay dağıtım, güvenlik veya performans sorunlarıyla ilgili olabilir. Ne olursa olsun, sürecin tamamını kapsayan bir çekirdek olay yanıt planı oluşturun. Her olay türü için ayrı algılama yöntemlerini, kapsama ve kurtarma adımlarını, söz konusu olay türüne özgü ilgili paydaşları açıklayan ek yordamlar tanımlayın. Örneğin, güvenlik olayı planınızda Güvenlik İşlemleri Merkezi(SOC) ile ilgili işlemler olabilir ve bu işlemler dağıtım olayı için geçerli değildir.

Olay yanıtı planı, bir olayın yönetilmesinde yer alan temel rolleri ve her birinin sorumluluklarını tanımlamalıdır . Açık sahiplik, karışıklığı azaltır ve algılamadan çözüme kadar eylemlerin koordinasyonunu sağlar. Olay yöneticisi, teknik lider ve iletişim lideri gibi rolleri tanımlamak, sorumluluk oluşturmayı ve tutarlı karar almayı desteklemeyi sağlar.

Plan, olayların nasıl bildirildiğini, kime bildirildiğini ve hangi kanallar aracılığıyla bildirildiğini gösteren bir iletişim ve yükseltme yapısı içermelidir. Bu, bilgilerin doğru kişilere hızla taşınmasını sağlar ve kritik anlarda boşluk veya yinelemeyi önler.

Plan, ekibin algılama, önceliklendirme, kapsama ve kurtarma sırasında izleyeceği temel yordamları da içermelidir. Bu adımlar yanıt için öngörülebilir bir çerçeve sağlar ve operasyonel kararlılığı korumaya yardımcı olur. Bu yordamların düzenli gözden geçirmeleri, planı sistem değişiklikleri ve önceki olaylardan alınan derslerle uyumlu tutar.

Tradeoff. Aşırı agresif bir yanıt stratejisi yanlış alarmları veya gereksiz yükseltmeleri tetikleyebilir.

Benzer şekilde, eşik ihlalleri tarafından tetiklenen ölçeklendirme veya kendi kendini düzeltme gibi otomatik eylemler ek maliyetlere ve işlem yüküne neden olabilir. En uygun eşikler belirgin olmadığından, eylemleri gerçek gereksinimlerinizle uyumlu hale getirmek için daha düşük ortamlarda test ederek ve üretim denemelerini dikkatle izleyerek bunları doğrulayın.

Olay yanıtı altyapısı, süreçler ve personel için yeterli kaynak ayırma

Hizmet kesintisini önlemek için geri dönüş gerektiğinde en az iki iş yükü yapılandırmasını aynı anda çalıştırmak için yeterli kaynağı planlayın. İş yükü ekipleri gerektiğinde üretimdeki her iki yapılandırmayı da desteklemeye hazır olmalıdır. Bu, bileşenleri ayırma veya veri modellerini güncelleştirme gibi iş yüklerinin yeniden düzenlenmesini içerebilir.

İnsan kaynakları açısından bakıldığında, ekibin olay yanıtı çalışması ile düzenli sorumluluklarını dengelemesi gerekir. Sayını artırmanız veya dış kaynaklarla etkileşim kurmanız gerekebilir. Bunlar Azure, üçüncü taraf satıcılardan veya olay yönetimi konusunda uzmanlaşmış ve etkin destek sözleşmelerine sahip merkezi BT ekiplerinden platform desteği olabilir. Olay yanıtı planı, her tarafın neleri kapsadığını, dışlamaları, yükseltme prosedürlerini ve beklenen yanıt sürelerini net bir şekilde belgelemelidir.

Uyarı

Bir olay sırasında hazır olmaları için bu destek sözleşmelerini önceden hazırlamak için kuruluşunuzla birlikte çalışın.

Bu dış bağımlılıklarda bile, bazı ekip üyelerinin doğrudan satıcılarla çalışmasını beklerken, diğerleri iç önceliklendirme ve düzeltmeye devam eder.

İç ve satıcı personelinin iletişim bilgilerini güncel tutun. Günlükler ve üretim ortamları için uygun izinlere sahip dış veya konuk erişimlerinin kimliğini doğrulamak ve yetkilendirmek üzere güvenli ve basit prosedürler oluşturun.

Yapay zeka fırsatı: Desteği dış satıcılara geçirmeden önce yapay zeka yalnızca satıcının sağladığı belgeleri, playbook'ları, sistem durumu modellerini ve yükseltme yollarını kullanarak satıcı ekibi olarak rol yapabilir. Geçmiş olayları test ederek eksik sistem bilgisi veya yanlış yapılandırılmış eşikler ya da kabile bilgilerine dayalı olma gibi boşlukları ortaya çıkartır. Bu, ekiplerin boşlukları proaktif olarak düzelterek sorunsuz iletimler sağlamasını sağlar.

Mimari yapıda kapsama ve yalıtım oluşturmak

Olaylar kaçınılmazdır, bu nedenle mimarinizi hataları kısıtlayıp patlama yarıçaplarını sınırlandıracak şekilde tasarlayın. Bir bileşen başarısız olduğunda etkinin yalıtıldığından ve sistemin diğer bölümlerine art arda bağlanmadığından emin olun.

Kaynakların segmentlere ayrılması, bileşenlerin mikro hizmetlerle ayrıştırılması ve tasarımınızda yapısal bariyerler veya yayıncı/abone gibi tasarım desenlerinin uygulanması gibi tekniklerle bunu elde edin. Ayrıca, uygun olduğunda dış kaynakları kullanmayı da göz önünde bulundurun. Örneğin, uygulama içindeki yapılandırma değerlerini sabit kodlamak yerine, uygulama kodu veya dağıtım paketi dışındaki ayarları yönetmek için bir dış yapılandırma deposu kullanın.

Hızlı algılama için izleme yetenekleri geliştirme

Güçlü bir olay yanıt planı, iyi tasarlanmış bir izleme yığınına bağlıdır. Yapılandırılmış günlük kaydı, hedeflenen panolar ve eyleme dönüştürülebilir uyarılar gibi özellikler, ekiplerin hızlı yanıt vermelerine, gürültüyü en aza indirmelerine ve uyarı yorgunluğunu önlemelerine yardımcı olur.

Risk: Uyarıları, yükseltmeleri veya otomatik ölçeklendirmeyi çok sık tetikleme gibi aşırı agresif bir yanıt veya otomasyon stratejisi hatalı alarmlara, gereksiz operasyonel kesintilere, kötü tanımlanmış eşiklerden kaynaklanan maliyetlerin artmasına neden olabilir.

Uyarı ve ölçeklendirme eşiklerini iyileştirmek için düşük ortamlarda kapsamlı testler ve denetimli üretim senaryoları yürüterek bu riski azaltın.

Etkili izlemenin iki temel boyutu vardır. İlk olarak, yanıt işlemi hizmet durumu, bağımlılık durumu, güvenlik ihlalleri ve veri bütünlüğü gibi kritik göstergeler hakkında Azure zamanında bildirim almalıdır. İkinci olarak, çözümün kendisi derin analiz, önceliklendirme ve kök neden belirlemeyi sağlayan zengin, yapılandırılmış telemetri, loglar, metrikler ve izler üretmelidir.

Olayların doğru bir şekilde yeniden oluşturulabilmesi için önemli iş iş akışlarının uçtan uca izlenebilir olması gerekir . Örneğin, bir sipariş işleme sisteminde, ekipler bir siparişin ne zaman alındığını, ödeme yetkilendirmesinin ne zaman denendiği ve hatanın nerede oluştuğunun izini sürebilmelidir. Hata ayıklamayı kolaylaştırmak için, yapılandırılabilir günlük ayrıntı düzeyi, bellek dökümleri ve tanılama verilerinin ortamlar arasında güvenli paylaşımını sağlayacak bileşenler tasarlayın. Bu özellikler, hızlı ve etkili olay yanıtı için gereken görünürlüğü ve bağlamı sağlar.

Yapay zeka fırsatı: El ile veri toplama nedeniyle araştırmaların başlamayı geciktirmesi yaygın bir durum. Yapay zeka bağlamı otomatik olarak toplayarak, verileri ilişkilendirerek ve uyarı tetiklendiğinde ilk önceliklendirmeyi gerçekleştirerek olay yanıtlarını daha hızlı ve kolay hale getirebilir. Mühendisler sıfırdan başlamak yerine hemen net bir görüntü elde eder, olaylar doğru uzmanlara yönlendirilir ve güvenli, yaygın düzeltmeler önerilebilir veya korumalar ile otomatikleştirilebilir. Yeterli test ile tüm bu bağıntılı bağlamla otomatik ilk yanıt sağlayan bir çözüm oluşturmayı göz önünde bulundurun.

Tanılama verileri ve uygulamalarıyla kolaylaştırma

Sorunları daha hızlı ve daha güvenilir bir şekilde tanılamak ve çözmek için çözümü tasarlayın. Yaklaşım, hata ayıklanabilirliği ve gözlemlenebilirliği sistemin tasarımına eklemektir.

Bu, kilitlenme ve bellek dökümleri gibi tüm ilgili tanılama verilerinin doğru toplanmasıyla başlar. Etkili bağıntı ve analiz için bu verileri güvenli bir şekilde toplamak, depolamak ve paylaşmak için gerekli araçların hazır olduğundan emin olun. Daha derin hata ayıklama özelliklerini desteklemek için ağ izleyicileri ve sembol sunucuları gibi araçlar tümleştirilmelidir. Son olarak, güvenli depolama, kısıtlı erişim ve uygun veri idare denetimleri aracılığıyla tüm tanılama verilerinin kurcalamaya karşı korunduğundan emin olun.

Sistem ayrıca olay yönetimini destekleyen yerleşik kancalar ve geçişler içermelidir. Bu mekanizmalar, hatalı bileşenleri yeniden dağıtmadan gerçek zamanlı olarak devre dışı bırakmada veya yalıtmada yararlıdır. Ayrıca, başarısız kaynaklar hemen atılması yerine adli analiz için karantinaya alınmış durumda korunmalıdır.

Olay verilerini tek bir cam bölmesinde görselleştirme

Gerçek zamanlı durum güncelleştirmeleri, görünürlük ve bilgi paylaşımı için merkezi bir olay yönetimi panosu veya portalı oluşturun. Gösterge paneli, tüm kullanıcıların önceliklere, mevcut eylemlere ve bağımlılıklara uygun kalmasını sağlayarak paylaşılan bir gerçek kaynağı olarak işlev görmelidir. Olaylar, ekipler için stresli durumlar yaratır ve odaklanmayı korumak ile zamanında karar vermeye yardımcı olmak için yeterli bilginin mevcut olması önemlidir. Ayrıca sorumluluk ve sürekli öğrenme kültürünü pekiştirir.

Temel bileşenler gözlemlenebilirlik verilerini, zaman çizelgelerini, sahiplik ayrıntılarını ve önem derecesi göstergelerini içermelidir. Görünürlük role özgü olmalıdır ve RBAC gibi uygun güvenlik denetimleriyle kullanıcıların hassas veya müşteri verilerini açığa çıkarmadan ihtiyaç duydukları bilgilere erişebilmesini sağlar. Kullanıcılara sonraki adımlarda ve sorumluluklarında kılavuzluk etmek için ilgili kaynaklara bağlantılar ve açık yönergeler ekleyin. İsteğe bağlı olarak, olay durumu değiştiğinde proje katılımcılarını bilgilendirmek için isteğe bağlı abonelikleri veya uyarıları destekleyin.

Denetim izlerini yakalama ve depolama

Olay yanıtını desteklemek için denetimi temel bir gereksinim olarak ele alarak çözümünüzü tasarlayın. Denetim izleri genellikle bir güvenlik önlemi olarak görüntülense de, operasyonel analiz için de aynı derecede kritik öneme sahiptir. Sistem yapılandırma değişikliklerinin, yönetim eylemlerinin ve dağıtımlar, yedeklemeler ve ayarlama etkinlikleri gibi işlem yordamlarının ayrıntılı kayıtlarını yakalamalıdır.

Planı test edin

Kuru çalıştırmaları veya kaos mühendisliği alıştırmalarını kullanarak olay yanıt süreçlerinizi düzenli olarak test edin. Kurtarılabilirliği doğrulamak, RTO ve RPO hedeflerini doğrulamak ve iletişim ve yükseltme planlarının baskı altında çalıştığından emin olmak için gerçekçi olayların simülasyonunu yapın.

Bu testler olmadan, küçük hatalar kısa sürede uzun süreli kesintilere veya büyük veri kaybına neden olabilir ve ekiplerin karışıklığı ve iş operasyonlarını riske atabilir. Test, gerçek bir olay gerçekleşmeden önce boşlukları tanımlamanızı ve koordinasyonu geliştirmenizi sağlar.

RCA bulgularını sistem geliştirmelerine dönüştürme

Her olaydan sonra, temel nedenleri ve katkıda bulunan faktörleri belirlemek için kapsamlı bir RCA gerçekleştirin. Her ekibin gözlemleri, başarıları ve geliştirme fırsatlarını paylaştığı, tarafsız bir kolaylaştırıcı tarafından yönetilen bir kınamasız değerlendirme ile bunu takip edin.

Derslerin sisteme sürekli olarak geri beslenmesi, olayların tekrarlama olasılığını azaltır. Eyleme dönüştürülebilir öğeleri üç alanda yakalayıp sınıflandırmayı unutmayın: olay yanıtı planının iyileştirilmesi, benzer sorunları daha önce algılamak için gözlemlenebilirlik geliştirmesi ve iş yükü tasarımının geliştirilmesi.

Yapay zeka fırsatı: Olay yöneticilerinin kesintileri anlamak, kök nedenleri belirlemek ve geçmişe dönük sorular hazırlamak için günlükleri, biletleri ve tartışmaları el ile gözden geçirmesi sık karşılaşılan bir durum değildir. Bu yinelenen çalışma zaman alıcı olabilir ve kurtarma çabalarından dikkatin dağılmasına neden olabilir.

Yapay zeka, analiz sorularını otomatik olarak oluşturarak, olay bağlamını özetleyerek ve veri kaynakları genelinde desenleri ortaya çıkararak verimliliği artırabilir. Ayrıca geçmişe dönük notları ve geçmiş olay verilerini analiz ederek öncelik sırasına göre beklemede olan işler önerebilir ve elle yapılan çabayı azaltabilir. Bu özelliğin uygulanması için yapay zekanın ICM ve SDLC araçlarıyla tümleştirilmesi gerekir. İş akışlarını yönetmek için PowerAutomate ve LogicApps gibi araçları değerlendirin.

Otomasyon aracılığıyla çeviklik ve tutarlılık getirme

El ile harcanan çabayı azaltmak ve yanıtı hızlandırmak için olay yanıtı iş akışı boyunca otomasyonu birleştirin. Azure Batch, Runbook'lar, İşlevler ve Logic Apps gibi araçları kullanarak algılama, kapsama, uyarı ve iletişimi mümkün olduğunca otomatikleştirin. Kurtarma, doğrulama, sorun giderme ve kök neden analizi için bir betik kütüphanesi ve Altyapı-olarak-kod (IaC) şablonlarının bakımını yapın. Ekiplerin olaylar sırasında güvenilir bir şekilde yürütebilmesi için bu otomasyonların belgelenmiş ve erişilebilir olduğundan emin olun. Ne kadar otomatikleştirirseniz, yanıtınız daha tutarlı olur.

Azure SRE Aracısı olay tanılamasını hızlandıran ve rutin yanıtları otomatik hale getiren yapay zeka destekli bir operasyon aracısıdır. Danışmanlık modundan tanımlı korumalar içinde otomatik yanıta kadar yapılandırılabilir özerklik düzeylerini destekler. Rehberlik moduyla başlayın ve güven arttıkça otomasyonu aşamalı olarak etkinleştirin. Yüksek önem derecesine sahip senaryolar için, otomatik eylemleri denetlemek için onay iş akışlarını ve korumaları uygulayın.

Azure hizmetleri

Azure Monitor bulut ve şirket içi ortamlardan izleme verilerini toplamaya, analiz etmeye ve yanıtlamaya yönelik kapsamlı bir çözümdür. Otomatik bildirimler ve otomatik ölçeklendirme ve diğer kendi kendini düzeltme mekanizmaları gibi diğer eylemler için yapılandırabileceğiniz sağlam bir uyarı platformu içerir.

Makine öğrenimini entegre etmek için Monitor'ü kullanın. Olay önceliklendirme ve proaktif önlemleri otomatikleştirin ve iyileştirin. Daha fazla bilgi için bkz İzleyici'de AIOps ve makine öğrenmesi.

Log Analytics İzleyici'de yerleşik olarak yer alan sağlam bir analiz aracıdır. Log Analytics kullanarak toplanan günlüklerde sorgu çalıştırabilir ve iş yükünüz hakkında içgörüler elde edebilirsiniz.

Microsoft Azure olay hazırlığı eğitimi sunar. Daha fazla bilgi için bkz. Azure olay hazırlığına giriş ve Olay hazırlığı.

Azure kaynakları arasında ağ bağlantısını ve performansını sürekli izlemek için Azure Network Watcher connection monitor kullanın. Acil durum olayları sırasında, bağlantı izleyicisindeki özel çalışma kitapları bağlantı durumu, gecikme eğilimleri ve uyarı durumu hakkında gerçek zamanlı görünürlük sağlar. Etkili bir RCA yapmak ve daha hızlı çözüm elde etmek için, Network Watcher tanılama araçları paketindeki connection troubleshoot'u kullanın.

Sanal ağ akış günlüklerini analiz etmek ve engellenen trafik, kötü amaçlı akışlar ve kullanıma sunulan bağlantı noktaları gibi içgörüleri ortaya çıkarabilmek için trafik analizini kullanın. Trafik analizinde çalışma kitapları oluşturmak, ekiplerin canlı trafik davranışını izlemesine, uyarılar almasına ve etkilenen ağ kesimlerini hızla tanımlamak ve etkili bir şekilde yanıt vermek için zaman çizelgesi ve topoloji görünümlerini kullanmasına olanak tanır.

ekipler, Microsoft yapay zeka ve DevOps araçlarını kullanarak geçmişe dönük içgörüleri otomatik olarak eyleme dönüştürülebilir kapsam öğelerine dönüştürebilir. Yapay zeka modeli işlemleri için Microsoft Foundry, kapsam yönetimi için Azure DevOps, otomasyon için Power Automate veya Logic Apps'i göz önünde bulundurun.

Operasyonel Mükemmellik denetim listesi

Öneriler kümesinin tamamına bakın.