Freigeben über


Ausführen von Entschärfungen im Azure SRE-Agent

Ihr Agent diagnostiziert Probleme und behebt sie. Er startet Dienste neu, skaliert Ressourcen, härtet Sicherheitseinstellungen und sammelt Diagnosen, alles mit der von Ihnen ausgewählten Steuerungsebene.

[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

Tipp

  • Bitten Sie Ihren Agenten, ein Problem zu beheben. Es schlägt eine Lösung vor, Sie genehmigen sie und führt den Fix aus.
  • Vollständiger Überwachungspfad: Wer hat ihn ausgelöst, was sich geändert hat und ob er funktioniert hat.
  • Wählen Sie Ihre Vertrauensstufe aus: Überprüfungsmodus (genehmigen Sie jede Aktion) oder den autonomen Modus (Agent behandelt sie).

Das Problem: Diagnose ohne Aktion verschwendet Zeit

Sie haben das Problem erkannt. Wie geht es weiter? Sie wechseln zum Azure-Portal, suchen den richtigen Bereich, bestätigen die Ressource, klicken durch Bestätigungsdialoge, warten Sie, bis der Vorgang abgeschlossen ist, und überprüfen Sie dann, ob alles funktioniert hat. Die Untersuchung dauerte fünf Minuten. Die Korrektur dauert weitere zehn Minuten.

Diese Reibung besteht in Ihren betrieblichen Workflows:

  • Tägliche Vorgänge: Skalieren sie Ressourcen für die erwartete Auslastung, starten Sie Dienste während der Wartungsfenster neu.
  • Complianceprüfungen: Verstärkung der Sicherheitseinstellungen über Dutzende von Speicherkonten hinweg.
  • On-Call-Antwort: Führen Sie bekannte Fixes schnell aus, damit Techniker wieder in den Ruhezustand zurückkehren können.
  • Proaktive Optimierung: Passen Sie SKUs basierend auf Verwendungsmustern an, bevor Probleme auftreten.

Wie der Agent die Schleife schließt

Wenn Ihr Agent ein Problem identifiziert, hört es nicht auf, Sie darüber zu informieren, was falsch ist. Es schlägt eine bestimmte Wartungsaktion vor, und je nach Ausführungsmodus wartet entweder auf Ihre Genehmigung oder führt die Aktion sofort aus.

Der Agent folgt einem konsistenten Muster: Diagnose → Identifizieren → Überprüfen von Berechtigungen → Ausführen (oder Vorschlagen) → überprüfen, ob der Fix funktioniert hat. Jede Aktion wird protokolliert, wer sie ausgelöst hat, was sich geändert hat, warum und ob die Aktion erfolgreich war.

Diagramm, das Agentantwortpfade zeigt: Ausführen eines Fixs, Erstellen einer Arbeitsaufgabe oder Senden von Benachrichtigungen.

Nach der Untersuchung kann Ihr Agent direkte Maßnahmen ergreifen, Nachverfolgungselemente erstellen oder Ihr Team benachrichtigen – jeweils mit vollständigem Kontext.

Was unterscheidet dies von Skripten?

Skripts sind starr. Sie führen unabhängig vom Kontext dieselbe Aktion aus. Ihr Agent überlegt zuerst über die Situation. Es berücksichtigt, was es während der Untersuchung gefunden hat, was er sich aus früheren Vorfällen erinnert, und was Ihre Fähigkeiten und Wissensbasis empfehlen. Dasselbe Symptom kann zu einem Neustart in einem Fall und einer Skalierung in einem anderen führen, da sich der Agent auf der Grundlage von Beweisen anpasst.

Ausführungsmodi geben Ihnen gestuftes Vertrauen. Starten Sie im Überprüfungsmodus , in dem der Agent vorschlägt und Sie genehmigen. Wechseln Sie zu Autonom, wenn Sie sich im Umgang mit dem Muster sicher fühlen. Verwenden Sie ReadOnly für nur zur Überwachung verwendete Agents, die keine Aktionen ausführen.

Was Ihr Agent tun kann

Ihr Agent kann jede Azure-Aktion über Azure CLI-Befehle ausführen. Wenn Sie es in az ausführen können, kann Ihr Agent es auch ausführen. Diese Funktion umfasst das Verwalten von Ressourcentypen, das Ändern von Konfigurationen, das Erstellen von Ressourcen und das Ausführen eines beliebigen Azure-Vorgangs.

Befehlstyp Was es ermöglicht
Befehle lesen Abfragen einer beliebigen Azure-Ressource – az webapp list, az containerapp show, , az vm list. az network vnet show Wird sofort ausgeführt, es ist keine Genehmigung erforderlich.
Schreiben von Befehlen Ändern Sie eine beliebige Azure-Ressource: az webapp restart, az containerapp update, az vm resize, . az role assignment create Erfordert genehmigung im Überprüfungsmodus.

Die Aktionen des Agents werden nur durch die Berechtigungen eingeschränkt, die seiner verwalteten Identität zugewiesen sind. Wenn Sie "Mitwirkender" für eine Ressourcengruppe gewähren, kann Ihr Agent alles in dieser Gruppe verwalten. Wenn Sie eine benutzerdefinierte Rolle mit bestimmten Aktionen gewähren, ist Ihr Agent auf diese Aktionen beschränkt.

Sicherheitsschutzschienen

Der Agent erzwingt Sicherheitseinschränkungen auf Befehlsebene.

  • Löschvorgänge blockiert – Der Agent führt delete- und remove-Befehle niemals aus. Es wird ein Fehler zurückgegeben, der Benutzer zum Azure-Portal für Löschungen leitet.
  • Blockierte Schlüsseltresorbefehle – Der Agent blockiert alle az keyvault Befehle, um die Offenlegung von Anmeldeinformationen zu verhindern.
  • Verwaltungssperren werden beachtet – Vor dem Ändern einer Ressource sucht der Agent nach Azure-Verwaltungssperren. Ressourcen mit ReadOnly-Sperren können nicht geändert werden.
  • Abonnementüberprüfung – Der Agent überprüft Abonnement-IDs in Befehlen für das richtige GUID-Format vor der Ausführung.

Vor und nachher

In der folgenden Tabelle wird der manuelle Entschärfungsprozess mit dem agentgestützten Ansatz verglichen.

Vorher Nach
Ausführung beheben Navigieren Sie zum Azure-Portal, suchen Sie nach Ressourcen und navigieren Sie durch die Blades. Agent fragen, genehmigen, fertig
Überprüfung Manuelles Überprüfen, ob der Fix funktioniert hat Agent überprüft und meldet Das Ergebnis
Überwachung Hoffen Sie, dass jemand dokumentiert hat, was sie getan haben Vollständiger Prüfpfad in Application Insights
Wissen Ein Ingenieur kennt den Fix Agent wendet gelernte Muster konsistent an

Berechtigungsanforderungen

Standardmäßig haben Agents Lesezugriff und können keine Aktionen ausführen. Sie erteilen explizit Schreibberechtigungen, indem Sie der verwalteten Identität Ihres Agents Rollen zuweisen.

Geltungsbereich Worauf der Agent reagieren kann Empfohlen für
Ressource Nur eine einzelne Ressource Maximale Einschränkung, beginnen Sie hier
Ressourcengruppe Alle Ressourcen in einer Gruppe Produktionsworkloads
Subscription Jede Ressource im Abonnement Nur Entwicklung und Tests

Warnung

Der Agent überprüft die Azure-Verwaltungssperren, bevor eine Ressource geändert wird. Sie können Ressourcen nicht mit ReadOnly-Sperren ändern, unabhängig von Berechtigungen oder Ausführungsmodus. Lösch- und Entfernungsvorgänge werden vollständig blockiert. Sie können das Azure-Portal für Löschungen verwenden.

Alternative Antwortpfade

Direkte Gegenmaßnahmen sind nicht die einzige Option. Viele Teams bevorzugen es, Ergebnisse an Arbeitsaufgaben oder Ticketsysteme weiterzuleiten, anstatt Aktionen direkt auszuführen. Arbeitsaufgaben sind besonders hilfreich, wenn die menschliche Überprüfung erforderlich ist oder Änderungsverwaltungsprozesse angewendet werden.

Antwortpfad So funktioniert es Am besten geeignet für:
Direkte Abschwächung Agent führt Neustarts, Skalierung oder Härtung aus. Vertrauenswürdige Muster, Nichtproduktion
Arbeitsaufgabe erstellen Agent erstellt GitHub-Problem oder Azure DevOps-Arbeitsaufgabe Mensch-in-der-Schleife, Änderungsmanagement
Benachrichtigung senden Beiträge von Agenten in Teams oder per E-Mail senden Bewusstsein ohne Aktion
Workflow auslösen Agent startet GitHub-Aktionen oder Logic Apps CI/CD-Integration, mehrstufige Prozesse

Konfigurieren Sie die Erstellung von Arbeitsaufgaben und Benachrichtigungen über Connectors. Verbinden Sie beispielsweise einen GitHub MCP-Server, damit Ihr Agent Probleme erstellen kann, oder verbinden Sie Azure DevOps, um Arbeitsaufgaben automatisch zu erstellen.

Weitere Informationen finden Sie unter Senden von Benachrichtigungen und Workflowautomatisierung zum Verketten dieser Antworttypen.

Beispiel: Von Vorfällen ausgelöste Entschärfung

Das folgende Beispiel zeigt, wie Ihr Agent einen Speichervorfall um 3:47 Uhr verarbeitet, während Sie schlafen.

3:47 Uhr — PagerDuty löst eine Warnung aus: "Hoher Arbeitsspeicher auf prod-api"

Ihr Agent (im Überprüfungsmodus) kümmert sich um alles.

  1. Bestätigt den Vorfall – PagerDuty zeigt "Von SRE-Agent bestätigt" an.

  2. Untersucht automatisch:

    • Abfragen von App Insights: Arbeitsspeicher bei 94%, steigend im Laufe von 2 Stunden.
    • Überprüft den Bereitstellungsverlauf: Keine letzten Bereitstellungen.
    • Erinnert sich: "Das letzte Mal, als das passiert ist, hat ein Neustart das Problem gelöst."
  3. Schlägt einen Fix vor – Beiträge im Vorfallthread:

    Memory at 94% on prod-api (App Service).
    Recommended action: Restart the App Service.
    
    Evidence:
    - Memory climbing since 1:30 AM
    - No recent deployments
    - Past incident: restart resolved similar issue on 2026-01-15
    
    [Approve] [Deny]
    
  4. Sie genehmigen (oder im autonomen Modus führt der Agent die Aktion sofort aus).

  5. Der Agent führt aus und überprüft:

    ✓ Restarted prod-api
    ✓ Memory now at 42%
    ✓ Incident resolved
    

Was ist passiert: Sie haben auf "Genehmigen" geklickt, und der Agent behandelte Untersuchung, Aktion und Überprüfung.

Überwachungspfad

Das System zeichnet jede Entschärfungsaktion zusammen mit dem vollständigen Kontext auf.

Feld Erfasste Informationen
Identität Der Agent und die verwaltete Identität
Action Der genaue Vorgang, der ausgeführt wurde
Timestamp Wann der Vorgang ausgeführt wird
Auslösen Die Diagnose oder Bedingung, die zu der Aktion führte
Result Erfolg oder Fehler mit Überprüfung nach der Aktion

Sie können die Prüfprotokolle in Application Insights über Monitor-Protokolle > im Agentenportal abfragen. Das System protokolliert jeden az Befehl als benutzerdefiniertes AgentAzCliExecution Ereignis. Weitere Informationen finden Sie unter Überwachungs-Agent-Aktionen.

Nächster Schritt