Incident-Plattformen in Azure SRE Agent

Eine Vorfallplattform ist das System, das Ihren Agenten informiert, wenn etwas schief geht. Durch das Verbinden Ihrer Vorfallplattform kann Ihr Agent Warnungen empfangen, Probleme untersuchen und automatisch Maßnahmen ergreifen, ohne darauf zu warten, dass jemand einen Chat startet.

Ohne eine Vorfallplattform bleibt Ihr Agent reaktiv: Benutzer stellen Fragen, und der Agent untersucht diese bei Bedarf. Sobald ein Gerät verbunden ist, wird Ihr Agent proaktiv: Er erfasst Vorfälle sofort, sobald sie auftreten, und beginnt umgehend mit der Arbeit.

Unterstützte Plattformen

Plattform Was es bietet
Azure Monitor Es sind keine Anmeldeinformationen erforderlich. Es kann im Assistenten verbunden werden und Warnungen von Ihren verwalteten Ressourcengruppen fließen automatisch, wobei wiederkehrende Warnungen in einem Thread zusammengeführt werden.
PagerDuty Vorfallwarnung und Anrufverwaltung mit API-basierter Integration
ServiceNow Integration der Unternehmens-IT-Dienstverwaltung

Es kann jeweils nur eine Vorfallplattform aktiv sein. Durch den Wechsel zu einer anderen Plattform wird die aktuelle Verbindung getrennt.

Was die Anbindung einer Vorfallplattform ermöglicht

Sobald die Verbindung hergestellt wurde, erhält Ihr Agent diese Funktionen:

Automatische Ereigniserfassung

Vorfälle werden unmittelbar nach ihrer Erstellung auf Ihrer Plattform an Ihren Agenten weitergeleitet. Niemand muss Warnungen kopieren oder manuell eine Untersuchung starten. Der Agent nimmt Vorfälle automatisch auf.

Umfangreiche Incident-Karten

Eingehende Vorfälle von allen unterstützten Plattformen, einschließlich PagerDuty, ServiceNow und Azure Monitor, werden in der Chatschnittstelle als Rich Cards angezeigt. Jede Karte zeigt Folgendes an:

Feld Einzelheiten
Schweregrad-Badge Farbcodiert nach Priorität (z. B. P1/Sev0 = rot, P2/Sev1 = orange)
Timestamp Wann der Incident ausgelöst wurde
Title Vorfalltitel mit Plattformpräfix
Status Aktueller Status (z. B. ausgelöst, bestätigt)
Beschreibung Vorfallzusammenfassung
Antwortplan Verknüpfen mit dem Reaktionsplan zur Behandlung des Vorfalls (falls konfiguriert)
Details anzeigen Link zum Vorfall in der Quellplattform

Rich-Karten ersetzen die zuvor verwendeten Nur-Text-Vorfallbenachrichtigungen und erleichtern das Scannen von Vorfalldetails auf einen Blick.

Vorfallinteraktion

Ihr Agent kann den Vorfall lesen und zurückschreiben. Diese Tools sind automatisch verfügbar, wenn Sie die entsprechende Plattform ohne zusätzliche Einrichtung verbinden.

PlattformLesefunktionenSchreibfunktionen
Azure Monitor.Warnungsdetails, Schweregrad, betroffene RessourcenBenachrichtigungen bestätigen, Warnungen schließen
PagerDutyVorfalldetails, DiagnoseBestätigen, Auflösen, Hinzufügen von Notizen
ServiceNowVorfalldetailsPosten von Diskussionseinträgen, Bestätigen, Auflösen

Antwortpläne

Reaktionspläne definieren , was Ihr Agent tut , wenn bestimmte Arten von Vorfällen eingehen. Sie konfigurieren Regeln basierend auf Vorfallschweregrad, Titelmustern oder anderen Kriterien, und der Agent folgt dem Plan automatisch.

Weitere Informationen: Vorfallreaktionspläne

Ein Antwortplan kann:

  • Ausführen bestimmter Untersuchungsschritte
  • Verwenden bestimmter Verbinder und Tools
  • Arbeiten auf einer definierten Autonomieebene (von "Nur Informationen sammeln" bis "Korrekturmaßnahmen ergreifen")
  • Automatische Wiederholungsuntersuchung (bis zu einem konfigurierbaren Grenzwert) vor dem Eskalieren an einen Menschen

Reaktionspläne verwandeln Ihren Agenten von einem allgemeinen Assistenten in einen Vorfall-Responder mit definierten Verfahren für bekannte Vorfalltypen.

Schnellstart-Antwortplan

Wenn Sie eine Vorfallplattform verbinden, können Sie den Schnellstartantwortplan aktivieren, um automatisch einen Standardreaktionsplan zu erstellen. Dieser Plan bringt Sie sofort auf den Weg:

Plattform Plan-Standardhandles Autonomiestufe
Azure Monitor. Sev0, Sev1, Sev2 Warnungen Autonom
PagerDuty P1-Vorfälle Autonom

Azure Monitor unterstützt alle Schweregrade (Sev0–Sev4). Der Schnellstartplan zielt standardmäßig auf Warnungen mit der höchsten Priorität ab. Sie können sie anpassen, um zusätzliche Schweregrade einzuschließen oder separate Pläne für Warnungen mit niedrigerer Priorität zu erstellen.

Der Schnellstartplan erstellt einen Antwortplan mit dem Namen quickstart_handler :

  • Gleicht Vorfälle nach Priorität oder Schweregrad ab
  • Deckt alle betroffenen Dienste ab
  • Wird im vollständig autonomen Modus ausgeführt
  • Kann später angepasst oder deaktiviert werden

Sie können diesen Standardplan anpassen oder zusätzliche Antwortpläne mit unterschiedlichen Filtern und Autonomiestufen erstellen.

Vorfallwert nachverfolgen

Im Abschnitt "Überwachen → Vorfallmetriken " wird gezeigt, wie Ihr Agent Vorfälle im Laufe der Zeit behandelt.

Weitere Informationen: Vorfallwert nachverfolgen

Metric Was es zeigt
Überprüfte Vorfälle Gesamtzahl der Vorfälle, die der Agent verarbeitet
Entschärfung durch Agent Vorfälle, die der Agent selbstständig löst
Unterstützt durch einen Agenten Vorfälle, bei denen der Agent hilft und der Benutzer die Lösung abschließt
Entschärfung durch Benutzer Vorfälle, die der Benutzer mit vom Agent bereitgestellten Informationen löst
Ausstehende Benutzeraktion Vorfälle, die auf menschliche Eingabe warten

Verwenden Sie diese Metriken, um die Effektivität Ihres Agents zu verstehen und Reaktionspläne zu identifizieren, die möglicherweise eine Optimierung erfordern.

Incident-Plattformen im Vergleich zu Konnektoren

Diese Konzepte arbeiten zusammen:

Zwischenfallplattformen Verbinder
Purpose Woher Benachrichtigungen kommen Der Daten- und Aktions-Agent kann verwendet werden.
Konfiguriert in Ersteller → Vorfallplattform Ersteller → Anschlüsse
Richtung Eingehend (Ereignisfluss zum Agenten) Ausgehend (Agent nimmt Kontakt zu Systemen auf)
Beispiel PagerDuty sendet eine Warnung, → Agent untersucht. Der Agent fragt Kusto ab → findet die Grundursache

Ihr Agent verwendet beide Konzepte: Die Vorfallplattform löst die Untersuchung aus, und Connectoren bieten die Werkzeuge zur Untersuchung.

Ressource Warum dies wichtig ist
Lernprogramm: Einrichten von Antwortplänen → Schrittweise Anleitung zum Erstellen Ihres ersten Antwortplans
Pläne für die Reaktion auf Vorfälle So leiten Reaktionspläne Vorfälle an benutzerdefinierte Agents weiter
Automatisieren der Reaktion auf Vorfälle End-to-End-Vorfallautomatisierungsfunktionen
Nachverfolgen des Vorfallwerts Den Einfluss Ihrer Agenten auf die Problemlösung messen
Überwachen der Agent-Nutzung Nachverfolgen von Nutzungs-, Sitzungseinblicken und Agentaktivitäten
PagerDuty PagerDuty-spezifische Einrichtung und Funktionen
ServiceNow ServiceNow-spezifische Einrichtung und Funktionen
Azure Monitor-Warnungen Azure Monitor Alarmierung, Zusammenführung wiederkehrender Alarme und Schweregradzuordnung
Steckverbinder → Wie Connectors Werkzeuge für Untersuchungen bereitstellen