Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Ihr Agent diagnostiziert Probleme und behebt sie. Er startet Dienste neu, skaliert Ressourcen, härtet Sicherheitseinstellungen und sammelt Diagnosen, alles mit der von Ihnen ausgewählten Steuerungsebene.
[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]
Tipp
- Bitten Sie Ihren Agenten, ein Problem zu beheben. Es schlägt eine Lösung vor, Sie genehmigen sie und führt den Fix aus.
- Vollständiger Überwachungspfad: Wer hat ihn ausgelöst, was sich geändert hat und ob er funktioniert hat.
- Wählen Sie Ihre Vertrauensstufe aus: Überprüfungsmodus (genehmigen Sie jede Aktion) oder den autonomen Modus (Agent behandelt sie).
Das Problem: Diagnose ohne Aktion verschwendet Zeit
Sie haben das Problem erkannt. Wie geht es weiter? Sie wechseln zum Azure-Portal, suchen den richtigen Bereich, bestätigen die Ressource, klicken durch Bestätigungsdialoge, warten Sie, bis der Vorgang abgeschlossen ist, und überprüfen Sie dann, ob alles funktioniert hat. Die Untersuchung dauerte fünf Minuten. Die Korrektur dauert weitere zehn Minuten.
Diese Reibung besteht in Ihren betrieblichen Workflows:
- Tägliche Vorgänge: Skalieren sie Ressourcen für die erwartete Auslastung, starten Sie Dienste während der Wartungsfenster neu.
- Complianceprüfungen: Verstärkung der Sicherheitseinstellungen über Dutzende von Speicherkonten hinweg.
- On-Call-Antwort: Führen Sie bekannte Fixes schnell aus, damit Techniker wieder in den Ruhezustand zurückkehren können.
- Proaktive Optimierung: Passen Sie SKUs basierend auf Verwendungsmustern an, bevor Probleme auftreten.
Wie der Agent die Schleife schließt
Wenn Ihr Agent ein Problem identifiziert, hört es nicht auf, Sie darüber zu informieren, was falsch ist. Es schlägt eine bestimmte Wartungsaktion vor, und je nach Ausführungsmodus wartet entweder auf Ihre Genehmigung oder führt die Aktion sofort aus.
Der Agent folgt einem konsistenten Muster: Diagnose → Identifizieren → Überprüfen von Berechtigungen → Ausführen (oder Vorschlagen) → überprüfen, ob der Fix funktioniert hat. Jede Aktion wird protokolliert, wer sie ausgelöst hat, was sich geändert hat, warum und ob die Aktion erfolgreich war.
Nach der Untersuchung kann Ihr Agent direkte Maßnahmen ergreifen, Nachverfolgungselemente erstellen oder Ihr Team benachrichtigen – jeweils mit vollständigem Kontext.
Was unterscheidet dies von Skripten?
Skripts sind starr. Sie führen unabhängig vom Kontext dieselbe Aktion aus. Ihr Agent überlegt zuerst über die Situation. Es berücksichtigt, was es während der Untersuchung gefunden hat, was er sich aus früheren Vorfällen erinnert, und was Ihre Fähigkeiten und Wissensbasis empfehlen. Dasselbe Symptom kann zu einem Neustart in einem Fall und einer Skalierung in einem anderen führen, da sich der Agent auf der Grundlage von Beweisen anpasst.
Ausführungsmodi geben Ihnen gestuftes Vertrauen. Starten Sie im Überprüfungsmodus , in dem der Agent vorschlägt und Sie genehmigen. Wechseln Sie zu Autonom, wenn Sie sich im Umgang mit dem Muster sicher fühlen. Verwenden Sie ReadOnly für nur zur Überwachung verwendete Agents, die keine Aktionen ausführen.
Was Ihr Agent tun kann
Ihr Agent kann jede Azure-Aktion über Azure CLI-Befehle ausführen. Wenn Sie es in az ausführen können, kann Ihr Agent es auch ausführen. Diese Funktion umfasst das Verwalten von Ressourcentypen, das Ändern von Konfigurationen, das Erstellen von Ressourcen und das Ausführen eines beliebigen Azure-Vorgangs.
| Befehlstyp | Was es ermöglicht |
|---|---|
| Befehle lesen | Abfragen einer beliebigen Azure-Ressource – az webapp list, az containerapp show, , az vm list. az network vnet show Wird sofort ausgeführt, es ist keine Genehmigung erforderlich. |
| Schreiben von Befehlen | Ändern Sie eine beliebige Azure-Ressource: az webapp restart, az containerapp update, az vm resize, . az role assignment create Erfordert genehmigung im Überprüfungsmodus. |
Die Aktionen des Agents werden nur durch die Berechtigungen eingeschränkt, die seiner verwalteten Identität zugewiesen sind. Wenn Sie "Mitwirkender" für eine Ressourcengruppe gewähren, kann Ihr Agent alles in dieser Gruppe verwalten. Wenn Sie eine benutzerdefinierte Rolle mit bestimmten Aktionen gewähren, ist Ihr Agent auf diese Aktionen beschränkt.
Sicherheitsschutzschienen
Der Agent erzwingt Sicherheitseinschränkungen auf Befehlsebene.
-
Löschvorgänge blockiert – Der Agent führt
delete- undremove-Befehle niemals aus. Es wird ein Fehler zurückgegeben, der Benutzer zum Azure-Portal für Löschungen leitet. -
Blockierte Schlüsseltresorbefehle – Der Agent blockiert alle
az keyvaultBefehle, um die Offenlegung von Anmeldeinformationen zu verhindern. - Verwaltungssperren werden beachtet – Vor dem Ändern einer Ressource sucht der Agent nach Azure-Verwaltungssperren. Ressourcen mit ReadOnly-Sperren können nicht geändert werden.
- Abonnementüberprüfung – Der Agent überprüft Abonnement-IDs in Befehlen für das richtige GUID-Format vor der Ausführung.
Vor und nachher
In der folgenden Tabelle wird der manuelle Entschärfungsprozess mit dem agentgestützten Ansatz verglichen.
| Vorher | Nach | |
|---|---|---|
| Ausführung beheben | Navigieren Sie zum Azure-Portal, suchen Sie nach Ressourcen und navigieren Sie durch die Blades. | Agent fragen, genehmigen, fertig |
| Überprüfung | Manuelles Überprüfen, ob der Fix funktioniert hat | Agent überprüft und meldet Das Ergebnis |
| Überwachung | Hoffen Sie, dass jemand dokumentiert hat, was sie getan haben | Vollständiger Prüfpfad in Application Insights |
| Wissen | Ein Ingenieur kennt den Fix | Agent wendet gelernte Muster konsistent an |
Berechtigungsanforderungen
Standardmäßig haben Agents Lesezugriff und können keine Aktionen ausführen. Sie erteilen explizit Schreibberechtigungen, indem Sie der verwalteten Identität Ihres Agents Rollen zuweisen.
| Geltungsbereich | Worauf der Agent reagieren kann | Empfohlen für |
|---|---|---|
| Ressource | Nur eine einzelne Ressource | Maximale Einschränkung, beginnen Sie hier |
| Ressourcengruppe | Alle Ressourcen in einer Gruppe | Produktionsworkloads |
| Subscription | Jede Ressource im Abonnement | Nur Entwicklung und Tests |
Warnung
Der Agent überprüft die Azure-Verwaltungssperren, bevor eine Ressource geändert wird. Sie können Ressourcen nicht mit ReadOnly-Sperren ändern, unabhängig von Berechtigungen oder Ausführungsmodus. Lösch- und Entfernungsvorgänge werden vollständig blockiert. Sie können das Azure-Portal für Löschungen verwenden.
Alternative Antwortpfade
Direkte Gegenmaßnahmen sind nicht die einzige Option. Viele Teams bevorzugen es, Ergebnisse an Arbeitsaufgaben oder Ticketsysteme weiterzuleiten, anstatt Aktionen direkt auszuführen. Arbeitsaufgaben sind besonders hilfreich, wenn die menschliche Überprüfung erforderlich ist oder Änderungsverwaltungsprozesse angewendet werden.
| Antwortpfad | So funktioniert es | Am besten geeignet für: |
|---|---|---|
| Direkte Abschwächung | Agent führt Neustarts, Skalierung oder Härtung aus. | Vertrauenswürdige Muster, Nichtproduktion |
| Arbeitsaufgabe erstellen | Agent erstellt GitHub-Problem oder Azure DevOps-Arbeitsaufgabe | Mensch-in-der-Schleife, Änderungsmanagement |
| Benachrichtigung senden | Beiträge von Agenten in Teams oder per E-Mail senden | Bewusstsein ohne Aktion |
| Workflow auslösen | Agent startet GitHub-Aktionen oder Logic Apps | CI/CD-Integration, mehrstufige Prozesse |
Konfigurieren Sie die Erstellung von Arbeitsaufgaben und Benachrichtigungen über Connectors. Verbinden Sie beispielsweise einen GitHub MCP-Server, damit Ihr Agent Probleme erstellen kann, oder verbinden Sie Azure DevOps, um Arbeitsaufgaben automatisch zu erstellen.
Weitere Informationen finden Sie unter Senden von Benachrichtigungen und Workflowautomatisierung zum Verketten dieser Antworttypen.
Beispiel: Von Vorfällen ausgelöste Entschärfung
Das folgende Beispiel zeigt, wie Ihr Agent einen Speichervorfall um 3:47 Uhr verarbeitet, während Sie schlafen.
3:47 Uhr — PagerDuty löst eine Warnung aus: "Hoher Arbeitsspeicher auf prod-api"
Ihr Agent (im Überprüfungsmodus) kümmert sich um alles.
Bestätigt den Vorfall – PagerDuty zeigt "Von SRE-Agent bestätigt" an.
Untersucht automatisch:
- Abfragen von App Insights: Arbeitsspeicher bei 94%, steigend im Laufe von 2 Stunden.
- Überprüft den Bereitstellungsverlauf: Keine letzten Bereitstellungen.
- Erinnert sich: "Das letzte Mal, als das passiert ist, hat ein Neustart das Problem gelöst."
Schlägt einen Fix vor – Beiträge im Vorfallthread:
Memory at 94% on prod-api (App Service). Recommended action: Restart the App Service. Evidence: - Memory climbing since 1:30 AM - No recent deployments - Past incident: restart resolved similar issue on 2026-01-15 [Approve] [Deny]Sie genehmigen (oder im autonomen Modus führt der Agent die Aktion sofort aus).
Der Agent führt aus und überprüft:
✓ Restarted prod-api ✓ Memory now at 42% ✓ Incident resolved
Was ist passiert: Sie haben auf "Genehmigen" geklickt, und der Agent behandelte Untersuchung, Aktion und Überprüfung.
Überwachungspfad
Das System zeichnet jede Entschärfungsaktion zusammen mit dem vollständigen Kontext auf.
| Feld | Erfasste Informationen |
|---|---|
| Identität | Der Agent und die verwaltete Identität |
| Action | Der genaue Vorgang, der ausgeführt wurde |
| Timestamp | Wann der Vorgang ausgeführt wird |
| Auslösen | Die Diagnose oder Bedingung, die zu der Aktion führte |
| Result | Erfolg oder Fehler mit Überprüfung nach der Aktion |
Sie können die Prüfprotokolle in Application Insights über Monitor-Protokolle > im Agentenportal abfragen. Das System protokolliert jeden az Befehl als benutzerdefiniertes AgentAzCliExecution Ereignis. Weitere Informationen finden Sie unter Überwachungs-Agent-Aktionen.