Ursachenanalyse im Azure SRE-Agent

Tipp

Verwenden Sie hypothesengesteuerte Untersuchung, keine zufällige Protokollsuche.
Stellen Sie eine vollständige Nachweiskette bereit, die zeigt , warum dies die Ursache ist.
Erinnern Sie sich an ähnliche frühere Vorfälle und deren Korrekturen.

Das Problem: Eine Protokollsuche ist keine Untersuchung.

Die meisten Debugging beginnen mit "Fehler anzeigen". Sie abfragen Protokolle, Scrollen durch Ergebnisse, Kopieren eines Zeitstempels, Wechseln von Tools und Ausführen einer anderen Abfrage. Sie ermitteln nicht. Sie korrelieren manuell Daten und halten die Überlegungen im Kopf.

Das eigentliche Problem besteht darin, protokolle nicht zu finden. Es geht darum, zu wissen, welche Fragen zu stellen sind, welche Tools zu prüfen sind, und wie man die Verbindung zwischen Protokollen, Metriken, Bereitstellungen und früheren Vorfällen herstellt. Dieses mentale Modell lebt in den Köpfen Ihrer leitenden Ingenieure, und sie können nicht auf jedem Anruf sein. Neue Teammitglieder verbringen Stunden mit Problemen, die Veteranen in Minuten lösen, da die Begründung nicht überall dokumentiert ist.

Wie der Azure SRE-Agent dieses Problem löst

Diagramm, das den Analysefluss der Ursache aus dem Sammeln von Nachweisen über die Hypothesenüberprüfung bis zum Abschluss zeigt.

Ihr Agent untersucht fachmännisch wie ein erfahrener SRE. Es werden nicht nur Protokolle durchsucht. Es bildet Hypothesen darüber, was schief gelaufen ist, und überprüft systematisch jeden anhand von Beweisen.

Sammelt Kontext: Abfragen von Application Insights, Azure Monitor, Bereitstellungsverlauf, Aktivitätsprotokolle und Ressourceneigenschaften.
Formularhypothesen: Generiert Theorien basierend auf dem Beweismuster.
Überprüft jeden: Testet Hypothesen systematisch und schließt falsche Leads aus.
Erläutert die Schlussfolgerung: Zeigt den vollständigen Begründungspfad mit unterstützenden Beweisen und Zitaten.

Was macht diesen Ansatz anders

Im Gegensatz zur Protokollsuche haben Ihre Agenten gründe für das Problem. "Fehler anzeigen" gibt Ihnen Daten, die interpretiert werden sollen. Ihr Agent interpretiert die Daten für Sie, indem sie Theorien bilden, testen und Schlussfolgerungen erläutern.

Im Gegensatz zu statischen Dashboards passt sich Ihr Agent an den jeweiligen Vorfall an. Es werden nicht nur Metriken angezeigt. Es entscheidet, welche Metriken wichtig sind, korreliert sie mit anderen Nachweisen und teilt Ihnen mit, warum.

Im Gegensatz zu Skripts behandelt Ihr Agent neuartige Situationen. Jedes Mal führt ein Skript dieselben Schritte aus. Der Agent überlegt, was dieses Mal anders ist, und passt seine Untersuchung entsprechend an.

Vor und nachher

Kategorie	Vorher	Nach
Untersuchungsansatz	Durchsuchen von Protokollen und Hoffen, dass Sie etwas finden	Agenten bilden und testen Hypothesen
Geöffnete Tools	4+ Portale, manuelle Korrelation	0 (Agent fragt alle Quellen ab)
Reasoning	"Ich denke, es ist die Datenbank..."	Die Datenbank-DTU ist bei 98 % und validiert.
Nachweispfad	In Ihrem Kopf	Vollständige Kette mit Erläuterung
Nächstes Mal	Von Grund auf neu starten	Speicher erinnert an ähnliche Vorfälle

Beispiel: Datenbank-Timeout-Untersuchung

Symptom: "500 Fehler am /api/orders-Endpunkt"

HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED

HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED

ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.

RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)

Erste Schritte

Die Ursachenanalyse funktioniert automatisch mit den integrierten Azure-Tools. Um eine tiefergehende Analyse zu ermöglichen, sollten Sie die folgenden Verbesserungen berücksichtigen.

Verbesserung	Was es ermöglicht	Konfiguration
Quellcodeverwaltung	Fehler-zu-Code-Korrelation, Semantikcodesuche	Quellcode verbinden
Wissensdatenbank	Kontext für die Hypothesengenerierung	Hochladen von Wissen
Benutzerdefinierte Telemetrie	Geschäftsmetriken in Kusto	Einrichten des Kusto-Connectors

Nächster Schritt

Ausführen einer umfassenden Untersuchung

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-27