Automatisieren der Reaktion auf Vorfälle im Azure SRE-Agent

Ihr Agent überwacht, untersucht und löst Vorfälle, während Sie schlafen. Es lernt von jedem Fix, um im Laufe der Zeit intelligenter zu werden. Hören Sie auf mit dem Kontextwechsel um 3 Uhr morgens.

[!VIDEO <VIDEO_URL>/Automated_Incident_Response.mp4]

Tipp

  • Ihr Agent erkennt Vorfälle an und beginnt innerhalb von Sekunden zu untersuchen.
  • Es korreliert automatisch Protokolle, Metriken, Bereitstellungen und vergangene Vorfälle.
  • Es schlägt selbstständig Korrekturen oder Lösungen basierend auf Ihrem Ausführungsmodus vor.
  • Das im Speicher erfasste Wissen verbessert die zukünftige Behandlung von Vorfällen.
  • Teilt Untersuchungsthemen mit Teamkollegen über Deep-Links.

Das Problem: 3 Uhr morgens, fünf Registerkarten, ein erschöpfter Ingenieur.

Wenn eine Warnung um 3:00 Uhr ausgelöst wird, wachen Sie nicht nur auf – Sie wechseln die Perspektive. Sie öffnen PagerDuty, um zu sehen, was falsch ist, dann Grafana für Metriken, dann Log Analytics für Fehler, dann Slack, um festzustellen, ob jemand anderes etwas weiß, dann ein Runbook, das vor sechs Monaten zuletzt aktualisiert wurde.

Währenddessen tickt die Uhr für Ihre mittlere Lösungszeit (MTTR). Das Wissen, wie dieses Problem behoben werden kann, besteht entweder in einem früheren Vorfall, im Kopf eines Teamkollegen oder in einem Runbook, das niemand liest. Aber um 3:00 Uhr können Sie es nicht finden.

Wie Ihr Agent dieses Problem löst

Ihr Agent beginnt innerhalb von Sekunden zu arbeiten, wenn ein Vorfall auftritt.

Diagramm mit dem Ablauf der Reaktion auf Vorfälle: Alarm wird ausgelöst, Agent bestätigt, sammelt Kontext, bildet Hypothesen, überprüft und löst oder eskaliert.

Der Agent führt die folgenden Schritte aus:

  1. Bestätigt die Warnung in Ihrer Vorfallplattform (PagerDuty, ServiceNow oder Azure Monitor).
  2. Abfragen Ihrer Observability-Tools - Azure Monitor, Application Insights, sowie alle verbundenen Quellen wie Kusto oder Nicht-Microsoft-Tools über MCP.
  3. Korreliert mit dem Bereitstellungsverlauf – wenn Sie die Quellcodeverwaltung verbunden oder einen benutzerdefinierten Agent mit Bereitstellungsschutz erstellt haben.
  4. Überprüft den Speicher auf ähnliche Probleme – "Wir haben diesen genauen Fehler vor drei Wochen gesehen. So wurde es behoben.
  5. Bildet Hypothesen darüber, was schief gelaufen ist, und überprüft jeden mit Beweisen.
  6. Schlägt eine Korrektur vor oder löst autonom auf Grundlage Ihres Ausführungsmodus.

Wenn Sie aufwachen, ist der Vorfall entweder mit einem vollständigen Begründungspfad gelöst, oder Sie haben eine klare Empfehlung, die auf Ihre Genehmigung wartet.

Was macht diesen Ansatz anders

Ihr Agent verbessert traditionelle Ansätze auf verschiedene Arten.

Im Gegensatz zu Runbooks lernt Ihr Agent von jedem Vorfall. Wenn ein Fix funktioniert, merkt es sich. Wenn Sie der Knowledge Base ein Runbook hinzufügen, verweist Ihr Agent automatisch darauf. Runbooks werden veraltet; Der Speicher Ihres Agenten wird intelligenter.

Im Gegensatz zu Skripts passt sich Ihr Agent an. Ein Skript führt unabhängig vom Kontext dieselben Schritte aus. Ihr Agent begründet die spezifische Situation und arbeitet daran, Evidenz über alle verbundenen Quellen hinweg zu korrelieren, um das Problem zu verstehen.

Im Gegensatz zu Dashboards agiert Ihr Agent. Dashboards enthalten Daten, die Sie interpretieren können. Ihr Agent interpretiert die Daten, bildet Hypothesen und schlägt Lösungen vor. Sobald diese Arbeit abgeschlossen ist, überprüfen Sie Schlussfolgerungen, nicht unformatierte Metriken.

Vor und nachher

Die folgende Tabelle vergleicht die manuelle Reaktion auf Vorfälle mit der Reaktion auf agentgestützte Vorfälle.

Fläche Vorher Nach
Anerkennung Warten Sie, bis der Mensch aufwacht Agent erkennt sofort an
Geöffnete Tools 5+ Registerkarten 0 (Der Agent bearbeitet es)
Untersuchung Manuelle Korrelation über Tools hinweg Agent fragt alle Quellen automatisch ab
Erfasstes Wissen Im Kopf des Ingenieurs Im Arbeitsspeicher gespeichert
Ruhezustand unterbrochen Ja No
Freigeben von Ergebnissen Screenshot oder Beschreiben des Navigationspfads Threadlink kopieren, In Teams einfügen

Teilen von Ermittlungsthreads

Während eines aktiven Vorfalls benötigen Sie, dass Ihr Team ein gemeinsames Verständnis über die Entdeckungen des Agenten hat. Jeder Untersuchungsthread verfügt über die Option Link zum Thread kopieren, die einen freigegebenen Deep-Link generiert. Fügen Sie sie in Teams oder Slack ein.

So kopieren Sie einen Threadlink:

  1. Öffnen Sie einen beliebigen Vorfalluntersuchungsthread.
  2. Wählen Sie neben dem Threadtitel die Schaltfläche (weitere Optionen) aus.
  3. Wählen Sie "Link kopieren" in Thread aus.

Die kopierte URL funktioniert über Zugriffsmethoden hinweg. Empfänger mit Zugriff auf Ihren Agent wählen den Link aus und landen direkt im Untersuchungsthread.

Wann Threadlinks teilen:

  • Teilen Sie während einer Incident-Bridge die Analyse der Ursache des Agents mit dem Team.
  • Verlinken Sie in Überprüfungen nach einem Vorfall direkt mit dem Untersuchungsthread als Beleg.
  • Senden Sie eine bestimmte Feststellung zur Einholung einer zweiten Meinung an einen Teamkollegen.

Erste Schritte

Ressource Was Sie lernen werden
Automatisieren der Reaktion auf Vorfälle Verbinden Sie Ihre Vorfallplattform, erstellen Sie Reaktionspläne, und beobachten Sie, wie Ihr Agent einen echten Vorfall verarbeitet

Nächster Schritt