Güvenilir bir izleme ve uyarı stratejisi tasarlama önerileri

Bu Azure Well-Architected Framework Güvenilirliği denetim listesi önerisi için geçerlidir:

RE:10 Çözümün sistem durumu göstergelerini ölçün ve yayımlayın. çalışma süresi ve diğer güvenilirlik verilerini iş yükü genelinden ve ayrıca tek tek bileşenlerden ve önemli akışlardan sürekli olarak yakalayın.

Bu kılavuzda, güvenilir bir izleme ve uyarı stratejisi tasarlamaya yönelik öneriler açıklanmaktadır. Operasyon ekiplerinizin ortamınızın sistem durumu hakkında bilgi sahibi olmasını sağlamak ve iş yükünüz için belirlenmiş güvenilirlik hedeflerini karşıladığınızdan emin olmak için bu stratejiyi uygulayın.

Tanımlar

Süre Tanım
Ölçümler Düzenli aralıklarla toplanan sayısal değerler. Ölçümler, bir sistemin belirli bir zamanda bazı yönlerini açıklar.
Kaynak günlükleri Bir sistemin oluşturduğu veriler. Sistemin durumu hakkında bilgi sağlar.
İzlemeler Bir isteğin hizmetler ve bileşenler aracılığıyla gittiği yol hakkında bilgi sağlayan veriler.

Temel tasarım stratejileri

İzleme ve uyarı stratejisi oluşturmadan önce, güvenilirlik planlamanızın bir parçası olarak iş yükünüz için aşağıdaki görevleri gerçekleştirin:

İş yükünüzün güvenilir bir şekilde çalıştığından emin olmak için bir izleme ve uyarı stratejisi oluşturun. İzleme ve uyarı stratejisi, operasyon ekiplerinize iş yükünüzün durumundaki değişiklikler hakkında bildirimde bulunabilmeleri ve sorunları hızla ele almaları için farkındalık sağlar. Kritik akışlarınız ve bu kritik akışların oluşturduğu bileşenler için bir sistem durumu modeli oluşturarak sağlam ve güvenilir bir izleme stratejisi oluşturun. Sistem durumu modeli sağlıklı, düzeyi düşürülmüş ve iyi durumda olmayan durumları tanımlar. Bu durumlardaki değişiklikleri hemen yakalamak için operasyonel duruşunuzu tasarlar. Sağlık durumları iyi durumdan düzeyi düşürülmüş veya iyi durumda olmayan duruma geçtiğinde, uyarı mekanizmaları otomatik düzeltme önlemlerini tetikler ve uygun takımlara bildirir.

İşletmenizin gereksinimlerini karşılayan bir izleme ve uyarı stratejisi tasarlamak için aşağıdaki önerileri uygulayın.

Genel kılavuz

  • Ölçümler, günlükler ve izlemeler arasındaki farkı anlayın.

  • Tüm bulut kaynakları için günlüğe kaydetmeyi etkinleştirin. Ortamınızda tanılama günlüğünü etkinleştirmek için dağıtımlarınızda otomasyon ve idareyi kullanın.

  • Tüm tanılama günlüklerini Log Analytics çalışma alanı gibi merkezi bir veri havuzuna ve analiz platformuna iletin. Bölgesel veri hakimiyeti gereksinimleriniz varsa, bu gereksinimlere tabi bölgelerdeki yerel veri havuzlarını kullanmanız gerekir.

Dengeleme: Günlükleri depolamak ve sorgulamak için maliyet etkileri vardır. Günlük analizinizin ve saklamanızın bütçenizi nasıl etkilediğine dikkat edin ve gereksinimlerinizi karşılamak için en iyi kullanım dengesini belirleyin. Daha fazla bilgi için bkz. Maliyet iyileştirme için en iyi yöntemler.

  • İş yükleriniz bir veya daha fazla uyumluluk çerçevesine tabiyse, hassas bilgileri işleyen bileşen günlüklerinden bazıları da bu çerçevelere tabidir. İlgili bileşen günlüklerini Microsoft Sentinel gibi bir güvenlik bilgileri ve olay yönetimi (SIEM) sistemine gönderin.

  • Uyumluluk çerçevelerinin iş yükünüz üzerinde uyguladığı uzun süreli saklama gereksinimlerini içeren bir günlük saklama ilkesi oluşturun.

  • Günlük verilerini sorgulamayı iyileştirmek için tüm günlük iletileri için yapılandırılmış günlüğü kullanın.

  • Değerler, yeşilden sarıya veya kırmızıya kadar bir sistem durumu durumu değişikliğiyle ilişkili kritik eşikleri geçtiğinde tetikleme uyarıları yapılandırın.

    Eşik yapılandırması sürekli geliştirmenin bir uygulamasıdır. İş yükünüz geliştikçe tanımladığınız eşikler değişebilir. Bazı durumlarda , dinamik eşikler izleme stratejiniz için iyi bir seçenektir.

  • Operasyon ekiplerinin gelecekte başvurmak üzere bu olayları izleyebilmesi için durumlar iyileştirirken uyarıları (kırmızıdan sarıya veya kırmızıdan yeşile) kullanmayı göz önünde bulundurun.

  • Ortamınızın gerçek zamanlı durumunu görselleştirin.

  • Sistem durumu modellerinizi ve izleme ve uyarı stratejinizi sürekli geliştirmek için olaylar sırasında toplanan verileri kullanın.

  • Bulut platformu izleme ve uyarı hizmetlerini birleştirir, örneğin:

  • Azure İzleyici içgörü araçları gibi bulut sağlayıcınız tarafından sunulan amaca yönelik gelişmiş izleme ve analiz özelliklerini birleştirir.

  • Yakalamak için yedekleme ve kurtarma izlemesi uygulayın:

    • İş yükünüzün hedef kurtarma noktası hedefi (RPO) içinde kurtarmayı başardığından emin olmak için veri çoğaltma durumu.

    • Başarılı ve başarısız yedeklemeler ve kurtarmalar.

    • Olağanüstü durum kurtarma planlamanızı bilgilendirmek için kurtarma süresi.

Uygulamaları izleme

  • Sistem durumu yoklamaları oluşturun veya işlevleri denetleyin ve bunları uygulamanın dışından düzenli olarak çalıştırın. Coğrafi olarak müşterilerinize yakın olan birden çok konumdan test yaptığınızdan emin olun.

  • Uygulama üretim ortamında çalışırken verileri günlüğe kaydedin. Üretim durumundaki sorunların nedenini tanılamak için yeterli bilgiye ihtiyacınız vardır.

  • Hizmet sınırlarındaki olayları günlüğe kaydedin. Hizmet sınırları boyunca akan bir bağıntı kimliği ekleyin. Bir işlem birden çok hizmetten geçerse ve bunlardan biri başarısız olursa, bağıntı kimliği uygulamanızdaki istekleri izlemenize ve işlemin neden başarısız olduğunu saptamanıza yardımcı olur.

  • Zaman uyumsuz günlük kaydı kullanın. Zaman uyumlu günlüğe kaydetme işlemleri bazen uygulama kodunuzu engeller ve bu da günlükler yazılırken isteklerin yedeklenmesine neden olur. Uygulama günlüğü sırasında kullanılabilirliği korumak için zaman uyumsuz günlüğü kullanın.

  • Uygulama günlüğünü denetimden ayırın. Denetim kayıtları genellikle uyumluluk veya mevzuat gereksinimleri için korunur ve eksiksiz olmalıdır. Bırakılan işlemleri önlemek için denetim günlüklerini tanılama günlüklerinden ayrı tutarak.

  • Uçtan uca uygulama ve kritik sistem akışları aracılığıyla işlemleri eşleyebileceğinizden emin olmak için telemetri bağıntısını kullanın. Bu işlem, hatalar için kök neden analizi (RCA) gerçekleştirmek için çok önemlidir. Bir sistem durumu modelini bilgilendirmek ve sorunları algılamak ve tahmin etmek için uygulamadan CPU yüzdesi, ağ giriş, ağ çıkışı ve saniyede disk işlemleri gibi platform düzeyinde ölçümleri ve günlükleri toplayın. Bu yaklaşım, geçici ve geçici olmayan hatalar arasında ayrım yapmak için yardımcı olabilir.

  • Uygulamayı anlamsal günlükler ve ölçümlerle izlemek için beyaz kutu izlemeyi kullanın. Bir sistem durumu modelini bilgilendirmek ve sorunları algılamak ve tahmin etmek için uygulamadan bellek tüketimi veya istek gecikmesi gibi uygulama düzeyindeki ölçümleri ve günlükleri toplayın.

  • Platform hizmetlerini ve sonuçta elde edilen müşteri deneyimini ölçmek için kara kutu izlemeyi kullanın. Kara kutu izleme, sistemin iç bileşenlerini bilmeden dışarıdan görünen uygulama davranışını test eder. Bu yaklaşım müşteri odaklı hizmet düzeyi göstergelerini (SLI), hizmet düzeyi hedeflerini (SLO' lar) ve hizmet düzeyi sözleşmelerini (SLA' lar) ölçmek için yaygındır.

Not

Uygulama izleme hakkında daha fazla bilgi için bkz. Sistem Durumu Uç Nokta İzleme düzeni.

Verileri ve depolamayı izleme

  • Depolama kapsayıcılarınızın kullanılabilirlik ölçümlerini izleyin. Bu ölçüm yüzde 100'in altına düştüğünde başarısız yazma işlemlerine işaret eder. Bulut sağlayıcınız yükü yönettiğinde geçici kullanılabilirlik düşüşleri oluşabilir. İş yükünüzle ilgili bir sorun olup olmadığını belirlemek için kullanılabilirlik eğilimlerini izleyin.

    Bazı durumlarda, depolama kapsayıcısının kullanılabilirlik ölçümlerindeki bir düşüş, depolama kapsayıcısıyla ilişkili işlem katmanında bir performans sorunu olduğunu gösterir.

  • Veritabanları için izlenecek birçok ölçüm vardır. Güvenilirlik bağlamında izlenecek önemli ölçümler şunlardır:

    • Sorgu süresi

    • Zaman aşımları

    • Bekleme süreleri

    • Bellek baskısı

    • Kilitler

Azure kolaylaştırma

  • Azure İzleyici , bulut ve şirket içi ortamlarınızdan izleme verilerini toplamak, analiz etmek ve yanıtlamak için kullanılan kapsamlı bir izleme çözümüdür.

  • Log Analytics, Azure portal Log Analytics çalışma alanında verilerle ilgili günlük sorgularını düzenlemek ve çalıştırmak için kullanılan bir araçtır.

  • Application Insights , Azure İzleyici'nin bir uzantısıdır. Uygulama performansı izleme (APM) özellikleri sağlar.

  • Azure İzleyici içgörüleri , sanal makineler, uygulama hizmetleri ve kapsayıcılar gibi Azure hizmetlerini izlemeye yardımcı olan gelişmiş analiz araçlarıdır. İçgörüler, Azure İzleyici ve Log Analytics'in üzerine kurulmuştur.

  • SAP çözümleri için Azure İzleyici , Azure üzerinde çalışan SAP manzaraları için Azure'a özel bir izleme ürünüdür.

  • Azure İlkesi, kuruluş standartlarını zorunlu kılmaya ve uygun ölçekte uyumluluğu değerlendirmeye yardımcı olur.

  • Azure İş Sürekliliği Merkezi, iş sürekliliği varlığınızla ilgili içgörüler sağlar. İş sürekliliği ve olağanüstü durum kurtarma (BCDR) için verilen yaklaşımları uygularken azure ve hibrit iş yükleri genelinde iş sürekliliği korumasının yönetimini merkezileştirmek için Azure İş Sürekliliği Merkezi kullanın. Azure İş Sürekliliği Merkezi, uygun koruma olmayan kaynakları (yedekleme veya olağanüstü durum kurtarma yoluyla) tespit eder ve düzeltici eylemler gerçekleştirir. Araç, birleşik izlemeyi kolaylaştırır ve tek bir konumdan kolayca erişilebilen Azure İlkesi aracılığıyla idare ve denetim uyumluluğu oluşturmanıza olanak tanır.

  • Birden çok çalışma alanı en iyi yöntemi için bkz. Log Analytics çalışma alanı mimarisi tasarlama.

Örnek

Gerçek dünya izleme çözümlerinin örnekleri için bkz. Azure'da web uygulaması izleme ve Azure Kubernetes Service kümesi için Temel mimari.

  • Azure İzleyici Temel Uyarıları (AMBA), müşterilerin ve iş ortaklarının Azure İzleyici'yi benimseyip gözlemlenebilirlik deneyimlerini geliştirmek için kullanabileceği merkezi bir uyarı tanımları deposudur.

Güvenilirlik denetim listesi

Önerilerin tamamına bakın.