Azure SRE Aracısı'nda kök neden analizi

Tip

  • Rastgele günlük araması değil, hipotez temelli araştırma kullanın.
  • Bunun nedenini gösteren tam bir kanıt zinciri sağlayın.
  • Benzer geçmiş olayları ve bunların düzeltmelerini hatırlayın.

Sorun: Günlük araması bir araştırma değildir.

Hata ayıklamanın çoğu "hataları göster" ile başlar. Günlükleri sorgular, sonuçları kaydırabilir, zaman damgasını kopyalayabilir, araçlar arasında geçiş yapabilir ve başka bir sorgu çalıştırabilirsiniz. Araştırmıyor musun? Verileri el ile ilişkilendiriyor ve mantığı kafanızda tutuyorsunuz.

Asıl sorun günlükleri bulmak değil. Sorulacak soruları, hangi araçları denetlemeyi ve noktaları günlükler, ölçümler, dağıtımlar ve geçmiş olaylar arasında nasıl bağlayacaklarını bilmektir. Kıdemli mühendislerinizin zihninde bulunan bu zihinsel model, her çağrıda bulunamazlar. Yeni ekip üyeleri, gerekçeler hiçbir yerde belgelenmediğinden, deneyimlilerin dakikalar içinde çözdüğü sorunlar için saatler harcar.

Azure SRE Aracısı bu sorunu nasıl çözer?

Hipotez doğrulamasından sonuca kadar kanıt toplamadan kök neden analizi akışını gösteren diyagram.

Temsilciniz uzman bir SRE gibi araştırıyor. Sadece günlükleri aramakla kalmaz. Neyin yanlış gittiğine ilişkin hipotezler oluşturur ve her birini kanıt kullanarak sistematik olarak doğrular.

  1. Bağlamı toplar: Application Insights, Azure İzleyici, dağıtım geçmişi, etkinlik günlükleri ve kaynak özelliklerini sorgular.
  2. Hipotezleri oluşturur: Kanıt desenini temel alan teoriler oluşturur.
  3. Her birini doğrular: Hipotezleri sistematik olarak test eder ve yanlış yönlendirmeleri ekarte eder.
  4. Sonucu açıklar: Destekleyici kanıtlar ve alıntılar içeren tam akıl yürütme izini gösterir.

Bu yaklaşımı farklı kılan nedir?

Günlük aramasının aksine, aracınız sorunu çözümler. "Bana hataları göster" yorumlayabileceğiniz verileri sağlar. Temsilciniz teoriler oluşturarak, bunları test ederek ve sonuçları açıklayarak verileri sizin için yorumlar.

Statik panolardan farklı olarak, ajanınız belirli bir duruma uyum sağlar. Sadece ölçümleri göstermekle kalmaz. Hangi ölçümlerin önemli olduğuna karar verir, bunları diğer kanıtlarla ilişkilendirip nedenini söyler.

Betiklerden farklı olarak, temsilciniz yeni durumlarla ilgilenir. Betik her seferinde aynı adımları çalıştırır. Temsilciniz bu kez nelerin farklı olduğu konusunda neden oluyor ve araştırmasını buna göre ayarlıyor.

Önce ve sonra

Kategori Önce Sonra
Araştırma yaklaşımı Günlükleri arayın ve bir şey bulduğunuzu umarsınız Ajan hipotezler oluşturur ve test eder.
Açılan araçlar 4+ portal, el ile korelasyon 0 (aracı tüm kaynakları sorgular)
Reasoning "Veritabanı olduğunu düşünüyorum..." %98 veritabanı DTU doğrulandı
Kanıt izi Kafanın içinde Açıklamalarla tam zincir
Bir dahaki sefere Sıfırdan başlama Bellek benzer olayları geri çağırıyor

Örnek: veritabanı zaman aşımı araştırması

Belirti: "/api/orders uç noktasında 500 hata"

HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED

HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED

ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.

RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)

Başlayın

Kök neden analizi, Azure'ın yerleşik araçlarıyla otomatik olarak çalışır. Daha ayrıntılı analiz sağlamak için aşağıdaki geliştirmeleri göz önünde bulundurun.

Geliştirme Ne mümkün kıldığı Kurulum
Kaynak denetimi Koda hata bağıntısı, anlamsal kod araması Kaynak kodu bağlama
Bilgi bankası Hipotez oluşturma bağlamı Bilgiyi yükle
Özel telemetri Kusto'da iş ölçümleri Kusto bağlayıcısı ayarlama

Sonraki adım