Ausführen von Entschärfungen im Azure SRE-Agent

Ihr Agent diagnostiziert Probleme und behebt sie. Er startet Dienste neu, skaliert Ressourcen, härtet Sicherheitseinstellungen und sammelt Diagnosen, alles mit der von Ihnen ausgewählten Steuerungsebene.

[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

Tipp

Bitten Sie Ihren Agenten, ein Problem zu beheben. Es schlägt eine Lösung vor, Sie genehmigen sie und führt den Fix aus.
Vollständiger Überwachungspfad: Wer hat ihn ausgelöst, was sich geändert hat und ob er funktioniert hat.
Wählen Sie Ihre Vertrauensstufe aus: Überprüfungsmodus (genehmigen Sie jede Aktion) oder den autonomen Modus (Agent behandelt sie).

Das Problem: Diagnose ohne Aktion verschwendet Zeit

Sie haben das Problem erkannt. Wie geht es weiter? Sie wechseln zum Azure-Portal, suchen den richtigen Bereich, bestätigen die Ressource, klicken durch Bestätigungsdialoge, warten Sie, bis der Vorgang abgeschlossen ist, und überprüfen Sie dann, ob alles funktioniert hat. Die Untersuchung dauerte fünf Minuten. Die Korrektur dauert weitere zehn Minuten.

Diese Reibung besteht in Ihren betrieblichen Workflows:

Tägliche Vorgänge: Skalieren sie Ressourcen für die erwartete Auslastung, starten Sie Dienste während der Wartungsfenster neu.
Complianceprüfungen: Verstärkung der Sicherheitseinstellungen über Dutzende von Speicherkonten hinweg.
On-Call-Antwort: Führen Sie bekannte Fixes schnell aus, damit Techniker wieder in den Ruhezustand zurückkehren können.
Proaktive Optimierung: Passen Sie SKUs basierend auf Verwendungsmustern an, bevor Probleme auftreten.

Wie der Agent die Schleife schließt

Wenn Ihr Agent ein Problem identifiziert, hört es nicht auf, Sie darüber zu informieren, was falsch ist. Es schlägt eine bestimmte Wartungsaktion vor, und je nach Ausführungsmodus wartet entweder auf Ihre Genehmigung oder führt die Aktion sofort aus.

Der Agent folgt einem konsistenten Muster: Diagnose → Identifizieren → Überprüfen von Berechtigungen → Ausführen (oder Vorschlagen) → überprüfen, ob der Fix funktioniert hat. Jede Aktion wird protokolliert, wer sie ausgelöst hat, was sich geändert hat, warum und ob die Aktion erfolgreich war.

Diagramm, das Agentantwortpfade zeigt: Ausführen eines Fixs, Erstellen einer Arbeitsaufgabe oder Senden von Benachrichtigungen.

Nach der Untersuchung kann Ihr Agent direkte Maßnahmen ergreifen, Nachverfolgungselemente erstellen oder Ihr Team benachrichtigen – jeweils mit vollständigem Kontext.

Was unterscheidet dies von Skripten?

Skripts sind starr. Sie führen unabhängig vom Kontext dieselbe Aktion aus. Ihr Agent überlegt zuerst über die Situation. Es berücksichtigt, was es während der Untersuchung gefunden hat, was er sich aus früheren Vorfällen erinnert, und was Ihre Fähigkeiten und Wissensbasis empfehlen. Dasselbe Symptom kann zu einem Neustart in einem Fall und einer Skalierung in einem anderen führen, da sich der Agent auf der Grundlage von Beweisen anpasst.

Ausführungsmodi geben Ihnen gestuftes Vertrauen. Starten Sie im Überprüfungsmodus , in dem der Agent vorschlägt und Sie genehmigen. Wechseln Sie zu Autonom, wenn Sie sich im Umgang mit dem Muster sicher fühlen. Verwenden Sie ReadOnly für nur zur Überwachung verwendete Agents, die keine Aktionen ausführen.

Was Ihr Agent tun kann

Ihr Agent kann jede Azure-Aktion über Azure CLI-Befehle ausführen. Wenn Sie es in az ausführen können, kann Ihr Agent es auch ausführen. Diese Funktion umfasst das Verwalten von Ressourcentypen, das Ändern von Konfigurationen, das Erstellen von Ressourcen und das Ausführen eines beliebigen Azure-Vorgangs.

Befehlstyp	Was es ermöglicht
Befehle lesen	Abfragen einer beliebigen Azure-Ressource – `az webapp list`, `az containerapp show`, , `az vm list`. `az network vnet show` Wird sofort ausgeführt, es ist keine Genehmigung erforderlich.
Schreiben von Befehlen	Ändern Sie eine beliebige Azure-Ressource: `az webapp restart`, `az containerapp update`, `az vm resize`, . `az role assignment create` Erfordert genehmigung im Überprüfungsmodus.

Die Aktionen des Agents werden nur durch die Berechtigungen eingeschränkt, die seiner verwalteten Identität zugewiesen sind. Wenn Sie "Mitwirkender" für eine Ressourcengruppe gewähren, kann Ihr Agent alles in dieser Gruppe verwalten. Wenn Sie eine benutzerdefinierte Rolle mit bestimmten Aktionen gewähren, ist Ihr Agent auf diese Aktionen beschränkt.

Sicherheitsschutzschienen

Der Agent erzwingt Sicherheitseinschränkungen auf Befehlsebene.

Löschvorgänge blockiert – Der Agent führt delete- und remove-Befehle niemals aus. Es wird ein Fehler zurückgegeben, der Benutzer zum Azure-Portal für Löschungen leitet.
Blockierte Schlüsseltresorbefehle – Der Agent blockiert alle az keyvault Befehle, um die Offenlegung von Anmeldeinformationen zu verhindern.
Verwaltungssperren werden beachtet – Vor dem Ändern einer Ressource sucht der Agent nach Azure-Verwaltungssperren. Ressourcen mit ReadOnly-Sperren können nicht geändert werden.
Abonnementüberprüfung – Der Agent überprüft Abonnement-IDs in Befehlen für das richtige GUID-Format vor der Ausführung.

Vor und nachher

In der folgenden Tabelle wird der manuelle Entschärfungsprozess mit dem agentgestützten Ansatz verglichen.

	Vorher	Nach
Ausführung beheben	Navigieren Sie zum Azure-Portal, suchen Sie nach Ressourcen und navigieren Sie durch die Blades.	Agent fragen, genehmigen, fertig
Überprüfung	Manuelles Überprüfen, ob der Fix funktioniert hat	Agent überprüft und meldet Das Ergebnis
Überwachung	Hoffen Sie, dass jemand dokumentiert hat, was sie getan haben	Vollständiger Prüfpfad in Application Insights
Wissen	Ein Ingenieur kennt den Fix	Agent wendet gelernte Muster konsistent an

Berechtigungsanforderungen

Standardmäßig haben Agents Lesezugriff und können keine Aktionen ausführen. Sie erteilen explizit Schreibberechtigungen, indem Sie der verwalteten Identität Ihres Agents Rollen zuweisen.

Geltungsbereich	Worauf der Agent reagieren kann	Empfohlen für
Ressource	Nur eine einzelne Ressource	Maximale Einschränkung, beginnen Sie hier
Ressourcengruppe	Alle Ressourcen in einer Gruppe	Produktionsworkloads
Subscription	Jede Ressource im Abonnement	Nur Entwicklung und Tests

Warnung

Der Agent überprüft die Azure-Verwaltungssperren, bevor eine Ressource geändert wird. Sie können Ressourcen nicht mit ReadOnly-Sperren ändern, unabhängig von Berechtigungen oder Ausführungsmodus. Lösch- und Entfernungsvorgänge werden vollständig blockiert. Sie können das Azure-Portal für Löschungen verwenden.

Alternative Antwortpfade

Direkte Gegenmaßnahmen sind nicht die einzige Option. Viele Teams bevorzugen es, Ergebnisse an Arbeitsaufgaben oder Ticketsysteme weiterzuleiten, anstatt Aktionen direkt auszuführen. Arbeitsaufgaben sind besonders hilfreich, wenn die menschliche Überprüfung erforderlich ist oder Änderungsverwaltungsprozesse angewendet werden.

Antwortpfad	So funktioniert es	Am besten geeignet für:
Direkte Abschwächung	Agent führt Neustarts, Skalierung oder Härtung aus.	Vertrauenswürdige Muster, Nichtproduktion
Arbeitsaufgabe erstellen	Agent erstellt GitHub-Problem oder Azure DevOps-Arbeitsaufgabe	Mensch-in-der-Schleife, Änderungsmanagement
Benachrichtigung senden	Beiträge von Agenten in Teams oder per E-Mail senden	Bewusstsein ohne Aktion
Workflow auslösen	Agent startet GitHub-Aktionen oder Logic Apps	CI/CD-Integration, mehrstufige Prozesse

Konfigurieren Sie die Erstellung von Arbeitsaufgaben und Benachrichtigungen über Connectors. Verbinden Sie beispielsweise einen GitHub MCP-Server, damit Ihr Agent Probleme erstellen kann, oder verbinden Sie Azure DevOps, um Arbeitsaufgaben automatisch zu erstellen.

Weitere Informationen finden Sie unter Senden von Benachrichtigungen und Workflowautomatisierung zum Verketten dieser Antworttypen.

Beispiel: Von Vorfällen ausgelöste Entschärfung

Das folgende Beispiel zeigt, wie Ihr Agent einen Speichervorfall um 3:47 Uhr verarbeitet, während Sie schlafen.

3:47 Uhr — PagerDuty löst eine Warnung aus: "Hoher Arbeitsspeicher auf prod-api"

Ihr Agent (im Überprüfungsmodus) kümmert sich um alles.

Bestätigt den Vorfall – PagerDuty zeigt "Von SRE-Agent bestätigt" an.
Untersucht automatisch:
- Abfragen von App Insights: Arbeitsspeicher bei 94%, steigend im Laufe von 2 Stunden.
- Überprüft den Bereitstellungsverlauf: Keine letzten Bereitstellungen.
- Erinnert sich: "Das letzte Mal, als das passiert ist, hat ein Neustart das Problem gelöst."

Schlägt einen Fix vor – Beiträge im Vorfallthread:

Memory at 94% on prod-api (App Service).
Recommended action: Restart the App Service.

Evidence:
- Memory climbing since 1:30 AM
- No recent deployments
- Past incident: restart resolved similar issue on 2026-01-15

[Approve] [Deny]

Sie genehmigen (oder im autonomen Modus führt der Agent die Aktion sofort aus).

Der Agent führt aus und überprüft:

✓ Restarted prod-api
✓ Memory now at 42%
✓ Incident resolved

Was ist passiert: Sie haben auf "Genehmigen" geklickt, und der Agent behandelte Untersuchung, Aktion und Überprüfung.

Überwachungspfad

Das System zeichnet jede Entschärfungsaktion zusammen mit dem vollständigen Kontext auf.

Feld	Erfasste Informationen
Identität	Der Agent und die verwaltete Identität
Action	Der genaue Vorgang, der ausgeführt wurde
Timestamp	Wann der Vorgang ausgeführt wird
Auslösen	Die Diagnose oder Bedingung, die zu der Aktion führte
Result	Erfolg oder Fehler mit Überprüfung nach der Aktion

Sie können die Prüfprotokolle in Application Insights über Monitor-Protokolle > im Agentenportal abfragen. Das System protokolliert jeden az Befehl als benutzerdefiniertes AgentAzCliExecution Ereignis. Weitere Informationen finden Sie unter Überwachungs-Agent-Aktionen.

Nächster Schritt

Automatisieren von Workflows

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-11