Aracılığıyla paylaş


Acil durum müdahale stratejisi tasarlama önerileri

Bu Azure Well-Architected Framework Operasyonel Mükemmellik denetim listesi önerisi için geçerlidir:

OE:08 Etkili bir acil durum operasyonları uygulaması geliştirin. İş yükünüzün altyapı ve kod genelinde anlamlı sistem durumu sinyalleri yaydığından emin olun. Elde edilen verileri toplayın ve panolar ve sorgular aracılığıyla acil durum yanıtlarını harekete geçirebilen eyleme dönüştürülebilir uyarılar oluşturmak için kullanın. Çağrıdaki rotasyonlar, olay yönetimi, acil durum kaynak erişimi ve son durum çalıştırma gibi insan sorumluluklarını net bir şekilde tanımlayın.

Bu kılavuzda acil durum yanıt stratejisi tasarlamaya yönelik öneriler açıklanmaktadır. bir iş yükünün yaşam döngüsü boyunca ortaya çıkan bazı sorunlar, acil durumların bildirilmesi için yeterince kritik öneme sahiptir. Ekibinizin bir sorunun sakin ve düzenli bir şekilde ele alındığından emin olmak için izleyebilecekleri sıkı denetimli ve odaklanmış süreçler ve yordamlar uygulayabilirsiniz. Acil durumlar herkesin stres düzeylerini doğal olarak yükseltir ve ekibiniz iyi hazırlanmazsa kaotik bir ortama yol açabilir. Stresi ve karışıklığı en aza indirmeye yardımcı olmak için bir yanıt stratejisi tasarlayın, yanıt stratejisini kuruluşunuzla paylaşın ve düzenli acil durum yanıt eğitimi gerçekleştirin.

Temel tasarım stratejileri

Acil durum yanıt stratejisi düzenli, iyi tanımlanmış bir süreç ve yordam kümesi olmalıdır. Her işlem ve yordamda, her adımın ekibinizin sorunu hızlı ve güvenli bir şekilde çözmesine yardımcı olacak betikler olmalıdır. Acil durum yanıt stratejisi geliştirmek için aşağıdaki genel bakışı göz önünde bulundurun:

  • Önkoşullar
    • Gözlemlenebilirlik platformu geliştirme
    • Bir olay yanıtı planı oluşturma
  • Olay aşamaları
    • Algılama
    • Kapsama
    • Önceliklendirme
  • Olay sonrası aşamalar
    • Kök neden analizi (RCA)
    • Son durum gözden geçirmesi
  • Devam eden etkinlik
    • Acil durum müdahale tatbikatları

Aşağıdaki bölümlerde bu aşamaların her biri için öneriler sağlanır.

Gözlemlenebilirlik

Güçlü bir acil durum müdahale stratejisine sahip olmak için sağlam bir gözlemlenebilirlik platformuna sahip olmanız gerekir. Gözlemlenebilirlik platformunuz aşağıdaki özelliklere sahip olmalıdır:

  • Bütünsel izleme: İş yükünüzü altyapı ve uygulama açısından ayrıntılı bir şekilde izlediğinizden emin olun.

  • Ayrıntılı günlüğe kaydetme: Bir sorunu önceliklendirmenize yardımcı olması için bileşenlerinizde ayrıntılı günlük kaydını etkinleştirin. Günlükleri kolayca yönetebilecek şekilde yapılandırabilirsiniz. Analize hazırlanmak üzere günlükleri otomatik olarak veri havuzlarına gönderin.

  • Yararlı panolar: Kuruluşunuz genelindeki her ekip için uyarlanmış sistem durumu modeli tabanlı panolar oluşturun. İş yükü durumunun farklı yönlerinden farklı ekipler sorumludur.

  • Eyleme dönüştürülebilir uyarılar: İş yükü ekipleriniz için yararlı olan uyarılar oluşturun. Ekiplerinizin eylem gerçekleştirmesi gerektirmeyen uyarılardan kaçının. Bu tür çok fazla uyarı, kişilerin uyarı bildirimlerini yoksaymasına veya engellemesine neden olabilir.

  • Otomatik bildirimler: Uygun ekiplerin kendilerinden eylem gerektiren uyarıları otomatik olarak aldığından emin olun. Örneğin katman 1 destek ekibiniz tüm uyarılar için bildirim almalı, güvenlik mühendisleriniz ise yalnızca güvenlik olayları için uyarı almalıdır.

Daha fazla bilgi için bkz. Gözlemlenebilirlik çerçevesi tasarlama ve oluşturma önerileri.

Olay yanıtı planı

Acil durum yanıt stratejisinin temeli bir olay yanıtı planıdır. Olağanüstü durum kurtarma planı gibi, bir olay yanıtı planı için rolleri, sorumlulukları ve yordamları açık ve ayrıntılı bir şekilde tanımlayın. Plan, güncel olduğundan emin olmak için düzenli incelemelere tabi olan sürüm denetimli bir belge olmalıdır.

Planınızda aşağıdaki bileşenleri açıkça tanımlayın.

Roller

Olay yanıt yöneticisini tanımlama. Bu kişi, başlatmadan kök neden analizine düzeltmeye kadar olayın sahibidir. Olay yanıtı yöneticisi, işlemlerin izlenmesini ve yanıt ekibi çalışmalarını gerçekleştirirken uygun tarafların bilgilendirilmesini sağlar.

Bir otopsi liderini belirleme. Bu kişi, olay çözüldükten hemen sonra otopsilerin gerçekleştirilmesini sağlar. Olaydan çıkan bulguları uygulamanıza yardımcı olan bir rapor oluştururlar.

İşlemler ve yordamlar

İş yükü ekibiniz acil durum ölçütlerini tanımlamalı ve anlamalıdır. Ekibiniz bir olayın ciddi olduğunu belirlediğinde olağanüstü durum bildirebilir ve olağanüstü durum kurtarma planını başlatabilirsiniz. Daha az ciddi durumlarda, sorun olağanüstü durum ölçütlerini karşılamayabilir. Ancak yine de sorunu acil durum olarak değerlendirmelisiniz ve bu da acil durum müdahale planını başlatmayı gerektirmektedir. Acil durumlar, iş yükünüzün içinde bulunan sorunlar veya iş yükünüzün bağımlılığıyla ilgili bir sorunun sonucu olabilir. Destek ekibinin, dış kullanıcılar tarafından bildirilen bir sorunun, temel alınan sorunu hiç göremeseler bile acil durum ölçütlerini karşılayıp karşılamadığını saptayabilmesi gerekir.

İletişim ve yükseltme planlarını tam olarak tanımlayın. Aldıkları uyarı bildiriminin türüne bağlı olarak, katman 1 desteğinizin sorunları ilerletmek için uygun ekiplerle kolayca iletişim kuraadığından emin olun. İç ve dış taraflar için hangi iletişim türünün uygun olduğunu bildiklerinden emin olun. İletişim ve yükseltme planlarında, arama zamanlamasının ve personelin listesini ekleyin.

Genel plana kapsama ve önceliklendirme betiklerini ekleyin. Ekipler, kapsama ve önceliklendirme işlevlerini gerçekleştirirken bu adım adım yordamları izler. Olay kapanışını tanımlayan şeyin açıklamasını ekleyin.

Eklenecek diğer öğeler

Microsoft Teams gibi dahili iletişim ve olay sırasında bilet oluşturma araçları veya kapsam planlama araçları gibi etkinlikleri izlemek için olaylar sırasında kullanılacak tüm standart araçları belgeleyin.

Acil durum kimlik bilgilerinizi belgele( diğer adıyla kır-cam hesapları). Bunların nasıl kullanılacağını açıklayan adım adım bir kılavuz ekleyin.

Acil durum yanıtı tatbikatı yönergeleri oluşturun ve tatbikatların ne zaman gerçekleştirildiğinin kaydını tutun.

Veri ihlallerini iletmek gibi gerekli tüm yasal veya mevzuat önlemlerini belgeleme.

Olay algılama

Anomalileri izleyen ve bunlar üzerinde otomatik olarak uyarı veren iyi tasarlanmış bir gözlemlenebilirlik platforma sahip olduğunuzda, sorunları hızla algılayabilir ve bunların önem derecesini belirleyebilirsiniz. Sorun acil durum olarak kabul edilirse plan başlatılabilir. Bazı durumlarda destek ekibine gözlemlenebilirlik platformu üzerinden bildirim yapılmaz. Müşteriler destek ekibi iletişim yollarını kullanarak destekle ilgili sorunlar bildirebilir. Ya da hesap yöneticileri veya VM'ler gibi düzenli olarak birlikte çalıştıkları kişilere ulaşabilirler. Destek ekibine nasıl bildirim gönderilirse bildirilsin, sorunu doğrulamak ve önem derecesini belirlemek için her zaman aynı adımları izlemeleri gerekir. Yanıt planından sapma stres ve karışıklık oluşturabilir.

Kapsama

Sorun düzeltmenin ilk adımı, iş yükünüzün geri kalanını korumak için sorunu içermektir. Kapsama stratejisi sorunun türüne bağlıdır, ancak genellikle etkilenen bileşenin iş yükü akış yollarından kaldırılmasını içerir. Örneğin, bir kaynağı kapatabilir veya ağ yönlendirme yollarından kaldırabilirsiniz. Sistem yöneticileri, mühendisler ve üst düzey geliştiriciler birlikte çalışarak kapsama stratejileri tasarlamalıdır. Kapsama, sorunların patlama yarıçapını sınırlamalı ve sorun çözülene kadar iş yükü işlevselliğini düşürülmüş durumda tutmalıdır. Etkilenen bir bileşenin önceliklendirme gerçekleştirmek için erişilebilir olması gerekiyorsa, iş yükünün geri kalanına erişiminin engellenmesi çok önemlidir. Mümkün olduğunca, bileşene yalnızca iş yükünden ve sistemlerin geri kalanından ayrılmış bir yol üzerinden erişmeniz gerekir.

Önceliklendirme

Sorunu başarıyla tamamladıktan sonra önceliklendirme çalışmalarına başlayabilirsiniz. Önceliklendirme sırasında izlediğiniz adımlar sorunun türüne bağlıdır. belirli bir iş yükü desteği alanı için ekip, ekibiyle ilgili olaylar için yordamlar oluşturmalıdır. Örneğin, güvenlik ekipleri güvenlik sorunlarını önceliklendirmeli ve geliştirdikleri betikleri izlemelidir. Ekiplerin önceliklendirme çalışmaları boyunca iyi tanımlanmış betikleri izlemesi önemlidir. Bu betikler, etkisiz veya başka sorunlara neden olabilecek değişiklikleri geri almak için geri alma işlemlerini içeren adım adım işlemler olmalıdır. Ayrıntılı analiz gerektiren sorunları verimli bir şekilde araştırmak için kullanıma açık günlük toplama ve analiz araçlarını kullanın. Sorun çözüldükten sonra, iyi tanımlanmış işlemleri izleyerek etkilenen bileşeni iş yükü akış yollarına güvenli bir şekilde geri getirin.

RCA raporlama

Müşterilerinize yönelik hizmet düzeyi sözleşmeleri (SLA' lar), olay çözüldükten sonra belirli bir süre içinde RCA raporları vermenizi gerektirebilir. Olay sahibinin RCA raporlarını oluşturması gerekir. Bu mümkün değilse, olay sahibiyle yakın çalışan başka bir kişi RCA raporlarını oluşturabilir. Bu strateji, olayın doğru bir şekilde hesaplanmasını sağlar. Kuruluşlar genellikle bilgilerin nasıl sunulduğu ve hangi tür bilgilerin paylaşılıp paylaşılmayabileceğine ilişkin yönergeler içeren tanımlı bir RCA şablonuna sahiptir. Kendi şablonunuzu ve yönergelerinizi oluşturmanız gerekiyorsa, bunların proje katılımcıları tarafından gözden geçirildiğinden ve onaylandığından emin olun.

Olay sonrası otopsiler

Tarafsız bir kişi, suçsuz otopsilere yol açmalıdır. Otopsi sonrası oturumlarda herkes bir olaydan elde edilen bulguları paylaşır. Olay yanıtına katılan her ekip, olay üzerinde çalışan kişiler tarafından temsil edilmelidir. Bu bireyler, başarılı olan alanların ve geliştirilebilen alanların örnekleriyle hazırlanan oturuma gelmelidir. Oturum, yanıt sırasında ortaya çıkacak olaylar veya sorunlar için suçlama atamaya yönelik bir forum değildir. Otopsi sonrası lideri oturumu iyileştirmeye odaklanan eylem öğelerinin net bir listesiyle bırakmalıdır, örneğin:

  • Yanıt planında geliştirmeler. Uygun eylemleri daha iyi yakalamak için işlemlerin veya yordamların yeniden değerlendirilmesi ve yeniden yazılması gerekebilir.

  • Gözlemlenebilirlik platformunda geliştirmeler. Belirli bir olay türünü daha önce yakalamak için eşiklerin yeniden değerlendirilmesi gerekebilir veya hesaba bağlanmayan davranışları yakalamak için yeni izlemenin uygulanması gerekebilir.

  • İş yükünde geliştirmeler. Olay, iş yükünde kalıcı bir düzeltme olarak ele alınması gereken bir güvenlik açığını ortaya çıkarabilir.

Dikkat edilmesi gerekenler

Aşırı agresif bir yanıt stratejisi yanlış alarmlara veya gereksiz yükseltmelere yol açabilir.

Benzer şekilde, eşik ihlallerine yanıt vermek için otomatik ölçeklendirme veya diğer kendi kendini iyileştirici eylemlerin agresif bir şekilde uygulanması gereksiz harcamalara ve yönetim yüküne yol açabilir. Uyarı ve ölçeklendirme gibi otomatik eylemler için ayarlanması gereken eşikleri tam olarak bilmiyor olabilirsiniz. Gereksinimleriniz için doğru eşikleri belirlemenize yardımcı olmak için düşük ortamlarda ve üretimde test gerçekleştirin.

Azure kolaylaştırma

Azure İzleyici , bulut ve şirket içi ortamlardan izleme verilerini toplamak, analiz etmek ve yanıtlamak için kapsamlı bir çözümdür. Otomatik bildirimler ve otomatik ölçeklendirme ve diğer kendi kendini düzeltme mekanizmaları gibi diğer eylemler için yapılandırabileceğiniz sağlam bir uyarı platformu içerir.

Makine öğrenmesini tümleştirmek için İzleyici'yi kullanın. Olay önceliklendirme ve proaktif önlemleri otomatikleştirin ve iyileştirin. Daha fazla bilgi için bkz. İzleyici'de AIOps ve makine öğrenmesi.

Log Analytics , İzleyici'de yerleşik olarak yer edinen sağlam bir analiz aracıdır. Toplu günlüklerde sorgu çalıştırmak ve iş yükünüz hakkında içgörüler elde etmek için Log Analytics'i kullanabilirsiniz.

Microsoft, Azure ile ilgili olay hazırlığı eğitimi sunar. Daha fazla bilgi için bkz. Azure olay hazırlığı ve Olay hazırlığı konularına giriş.

Operasyonel Mükemmellik denetim listesi

Önerilerin tamamına bakın.