Freigeben über


Schritt 4: Einrichten der Reaktion auf Vorfälle im Azure SRE-Agent

Geschätzte Zeit: 10 Minuten

Verbinden Sie Ihre Vorfallplattform, und erstellen Sie einen Reaktionsplan. Wenn Vorfälle eintreffen, untersucht ihr Agent automatisch und generiert detaillierte Ausführungspläne.

Was Sie erreichen

Am Ende dieses Schritts hat Ihr Agent:

  • Empfängt Vorfälle von Azure Monitor, PagerDuty oder ServiceNow
  • Untersucht automatisch übereinstimmende Vorfälle
  • Generiert KI-Ausführungspläne aus Ihren Anweisungen
  • Sammelt Nachweise und Empfehlungen

Voraussetzungen

Anforderung Einzelheiten
Agent erstellt Vervollständigen Sie Schritt 1: Erstellen Sie Ihren Agent zuerst.
Vorfallsplattform Azure Monitor (Standard), PagerDuty oder ServiceNow.

Tipp

Auch wenn es nicht erforderlich ist, verbessert das Ausführen von Schritt 2: Wissen hinzufügen und Schritt 3: Quellcode verbinden die Reaktion auf Zwischenfälle erheblich. Ihr Agent verweist auf Ihre Runbooks und korreliert Probleme mit bestimmten Codeänderungen, wodurch generische Untersuchungen in teamspezifische Ursachenanalyse umgewandelt werden.

Verbinden Sie Ihre Vorfallplattform

Wählen Und konfigurieren Sie die Vorfallplattform, die Ihr Team verwendet.

Azure Monitor (Standardmäßig)

Azure Monitor wird automatisch verbunden, wenn Sie Ihren Agent erstellen. Es ist keine zusätzliche Konfiguration erforderlich.

PagerDuty oder ServiceNow

So verbinden Sie PagerDuty oder ServiceNow als Ihre Vorfallplattform:

  1. Wählen Sie "Einstellungen" in der linken Randleiste aus.
  2. Wählen Sie "Vorfallplattform" aus.
  3. Wählen Sie Ihre Plattform aus der Dropdownliste aus:
    • PagerDuty: Geben Sie Ihren REST-API-Zugriffsschlüssel ein.
    • ServiceNow: Geben Sie Ihre Instanz-URL und Anmeldeinformationen ein.
  4. Wählen Sie Speichern aus.

Ihr Agent empfängt jetzt Vorfälle von Ihrer Plattform.

Erstellen eines Reaktionsplans

Erstellen Sie Reaktionspläne aus der Leinwand des Subagent-Builders. Sie können sehen, welche Trigger an welche Subagenten weitergeleitet werden.

  1. Wählen Sie den Generator in der linken Randleiste aus.
  2. Wählen Sie den Subagent-Generator aus.
  3. Suchen Sie den Unteragenten, den Sie für die Bearbeitung von Vorfällen auswählen möchten, und wählen Sie die + Schaltfläche links daneben aus.
  4. Wählen Sie "Vorfallauslöser hinzufügen" aus.
  5. Konfigurieren Sie den Trigger: Legen Sie einen Namen fest, wählen Sie Schweregrade aus (z. B. P1 und P2), wählen Sie den betroffenen Dienst aus, und fügen Sie optional einen Titelschlüsselwortfilter hinzu.
  6. Wählen Sie die Autonomiestufe aus (Prüfmodus wird empfohlen, um zu beginnen).
  7. Zeigen Sie eine Vorschau für übereinstimmende Vorfälle an, und wählen Sie dann "Erstellen" aus.

Der Trigger wird als Knoten angezeigt, der mit dem Subagent auf der Canvas verbunden ist.

Tipp

Wenn Sie eine Vorfallplattform zum ersten Mal verbinden, erstellt das System möglicherweise automatisch einen Standardmäßigen Schnellstart-Antwortplan . Wenn Sie eigene Trigger über den Subagent-Generator einrichten, löschen Sie den Standardplan ausGenerator-Vorfallreaktionsplänen>, um Konflikte zu vermeiden. Zwei überlappende Pläne können dazu führen, dass Vorfälle durch die falsche Subagentur oder als Duplikate bearbeitet werden.

Die vollständige schrittweise Anleitung mit Screenshots finden Sie im Lernprogramm zum Einrichten eines Vorfalltriggers.

Antwortpläne, die auf der Canvas des Subagent-Generators angezeigt werden.

Was passiert, wenn ein Vorfall eintrifft

Wenn ein Vorfall Ihrem Plan entspricht, verarbeitet der Agent ihn automatisch.

  1. Ruft Vorfalldetails von Ihrer Plattform ab.
  2. Sucht den Speicher nach ähnlichen früheren Vorfällen und relevanter Dokumentation ab.
  3. Führt den Plan aus, indem Befehle ausgeführt und Nachweise gesammelt werden.
  4. Fasst Ergebnisse mit Zeitstempeln und Empfehlungen zusammen.

Speichersuche mit früheren Vorfällen und relevanten Dokumentationen.

Beispielergebnisse

Das folgende Beispiel zeigt Ergebnisse aus einem Container-App-Vorfall:

Zusammenfassung:

  • Der Container wurde um 01:27Z neu gestartet, wobei der Speicher stark abfällt.
  • Aktuelle Konfiguration: 2 Gi Arbeitsspeicher, 1 CPU, minReplicas=2, maxReplicas=4.

Wahrscheinliche Ursache: Vorübergehender Containerneustart (OOM oder Bereitstellung).

Empfohlene Aktionen:

  1. Erhöhen Sie minReplicas auf 3-4, um die Auswirkungen auf den Neustart zu verringern.
  2. Container-Gesundheitsüberprüfungen überprüfen.

Ihr Agent gibt umsetzbare Empfehlungen aufgrund von Beweisen, nicht basierend auf allgemeinen Ratschlägen.

Nächster Schritt