Dela via


Utför mildringsåtgärder i Azure SRE Agent

Din agent diagnostiserar problem och åtgärdar dem. Den startar om tjänster, skalar resurser, härdar säkerhetsinställningar och samlar in diagnostik, allt med den kontrollnivå du väljer.

[! VIDEO <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

Tips/Råd

  • Be agenten att åtgärda ett problem. Den föreslår en lösning, du godkänner den och den kör korrigeringen.
  • Fullständig spårningslogg: vem som utlöste det, vad som ändrades och om det fungerade.
  • Välj din förtroendenivå: Granska läget (godkänn varje åtgärd) eller autonomt läge (agenten hanterar det).

Problemet: diagnos utan åtgärd slösar tid

Du har identifierat problemet. Vad händer nu? Du går till Azure-portalen, hittar rätt blad, bekräftar resursen, klickar igenom bekräftelsedialogrutor, väntar tills åtgärden har slutförts och kontrollerar sedan att den fungerade. Utredningen tog fem minuter. Korrigeringen tar ytterligare tio.

Den här friktionen finns i dina operativa arbetsflöden:

  • Dagliga åtgärder: Skala resurser för förväntad belastning, starta om tjänster under underhållsperioder.
  • Efterlevnadskontroller: Härda säkerhetsinställningar för dussintals lagringskonton.
  • Joursvar: Kör välkända korrigeringar snabbt så att ingenjörerna kan komma i viloläge igen.
  • Proaktiv optimering: Justera SKU:er baserat på användningsmönster innan problem uppstår.

Så här stänger din agent loopen

När din agent identifierar ett problem slutar det inte att tala om för dig vad som är fel. Den föreslår en specifik reparationsåtgärd och väntar, beroende på körningsläget, antingen på ditt godkännande eller kör åtgärden omedelbart.

Agenten följer ett konsekvent mönster: diagnostisera → identifiera åtgärd → kontrollera behörigheter → köra (eller föreslå) → kontrollera att korrigeringen fungerade. Varje åtgärd loggas med vem som utlöste den, vad som ändrades, varför och om den lyckades.

Diagram som visar agentens svarssökvägar: kör korrigering, skapa arbetsobjekt eller skicka meddelande.

När du har undersökt det kan din agent vidta direkta åtgärder, skapa spårningsobjekt eller meddela ditt team – var och en med fullständig kontext.

Vad skiljer sig detta från skript

Skript är stela. De kör samma åtgärd oavsett kontext. Din agent resonerar först om situationen. Den tar hänsyn till vad den hittade under undersökningen, vad den kommer ihåg från tidigare incidenter och vad dina kunskaper och kunskapsbas rekommenderar. Samma symptom kan leda till en omstart i ett fall och en uppskalning i ett annat, eftersom agenten anpassas baserat på bevis.

Körlägen ger dig graderat förtroende. Starta i granskningsläge där agenten föreslår och du godkänner. Gå över till Autonomt när du är säker på mönstret. Använd ReadOnly för endast övervakningsagenter som aldrig vidtar åtgärder.

Vad din agent kan göra

Din agent kan köra valfri Azure-åtgärd via Azure CLI-kommandon. Om du kan köra den i az, kan agenten köra den också. Den här funktionen omfattar hantering av valfri resurstyp, ändring av konfigurationer, skapande av resurser och körning av alla Azure-åtgärder.

Kommandotyp Vad det möjliggör
Läs kommandon Fråga alla Azure-resurser – az webapp list, az containerapp show, az vm list, az network vnet show. Körs omedelbart, inget godkännande krävs.
Skrivkommandon Ändra valfri Azure-resurs: az webapp restart, az containerapp update, az vm resize, az role assignment create. Kräver godkännande i granskningsläge.

Agentens åtgärder begränsas endast av de behörigheter som tilldelats den hanterade identiteten. Om du beviljar rollen Bidragsgivare för en resursgrupp kan din agent hantera allt där i gruppen. Om du beviljar en anpassad roll med specifika åtgärder är agenten begränsad till dessa åtgärder.

Skyddsräcken

Agenten tillämpar säkerhetsbegränsningar på kommandonivå.

  • Borttagningsåtgärder blockerade – agenten kör aldrig delete och remove kommandon. Det returnerar ett fel som dirigerar användare till Azure-portalen för borttagningar.
  • Key Vault-kommandon blockerade – Agenten blockerar alla az keyvault kommandon för att förhindra exponering av autentiseringsuppgifter.
  • Hanteringslås respekteras – Innan du ändrar någon resurs söker agenten efter Azure-hanteringslås. Resurser med ReadOnly-lås kan inte ändras.
  • Prenumerationsverifiering – agenten validerar prenumerations-ID:n i kommandon för rätt GUID-format före exekvering.

Före och efter

I följande tabell jämförs den manuella minskningsprocessen med agentassisterad metod.

före Efter
Åtgärda exekvering Gå till Azure-portalen, leta reda på resursen och navigera genom panelerna. Fråga agenten, godkänn, klar
Kontroll Kontrollera manuellt om korrigeringen fungerade Agentverifierar och rapporterar resultat
Revision Hoppas att någon dokumenterade vad de gjorde Fullständig granskningslogg i Application Insights
Kunskap En tekniker känner till korrigeringen Agent tillämpar inlärda mönster konsekvent

Behörighet som krävs

Som standard har agenter läsåtkomst och kan inte vidta åtgärder. Du beviljar uttryckligen skrivbehörighet genom att tilldela roller till agentens hanterade identitet.

Scope Vad agenten kan agera på Rekommenderas för
Resource Endast en enskild resurs Maximal begränsning, börja här
Resursgrupp Alla resurser i en grupp Produktionsarbetsbelastningar
Subscription Alla resurser i prenumerationen Endast utveckling och testning

Varning

Agenten kontrollerar Azure-hanteringslås innan någon resurs ändras. Du kan inte ändra resurser med ReadOnly-lås, oavsett behörighet eller körningsläge. Radera och ta bort åtgärder blockeras helt. Du kan använda Azure-portalen för borttagningar.

Alternativa svarssökvägar

Direkta åtgärder är inte det enda alternativet. Många team föredrar att dirigera resultat till arbetsobjekt eller biljettsystem i stället för att utföra åtgärder direkt. Arbetsobjekt är särskilt användbara när mänsklig granskning krävs eller ändringshanteringsprocesser tillämpas.

Svarsväg Så här fungerar det Bäst för
Direkt minskning Agenten kör omstart, skalning eller härdning Betrodda mönster, icke-produktion
Skapa arbetsobjekt Agent skapar GitHub-problem eller Azure DevOps-arbetsobjekt Människan-i-slingan, förändringshantering
Skicka meddelande Agent postar på Teams eller skickar e-post Medvetenhet utan åtgärd
Utlösararbetsflöde Agenten skickar GitHub Actions eller Logic Apps CI/CD-integrering, processer med flera steg

Konfigurera skapandet av arbetsobjekt och aviseringar via kopplingar. Anslut till exempel en GitHub MCP-server för att låta din agent skapa problem eller ansluta Azure DevOps för att skapa arbetsobjekt automatiskt.

Mer information finns i Skicka meddelanden och Arbetsflödesautomation för att länka dessa svarstyper tillsammans.

Exempel: incidentutlöst riskminskning

I följande exempel visas hur din agent hanterar en minnesincident klockan 03:47 medan du sover.

03:47 – PagerDuty utlöser en avisering: "Högt minne på prod-api"

Din agent (i granskningsläge) hanterar allt:

  1. Bekräftar incidenten – PagerDuty visar "Bekräftad av SRE-agent".

  2. Undersöker automatiskt:

    • Kontrollerar App Insights: minne nu på 94%, ökande trend över 2 timmar.
    • Kontrollerar distributionshistoriken: inga nya distributioner.
    • Återkallar från minnet: "Senaste gången detta hände löste omstarten det."
  3. Föreslår en korrigering – Inlägg i incidenttråden:

    Memory at 94% on prod-api (App Service).
    Recommended action: Restart the App Service.
    
    Evidence:
    - Memory climbing since 1:30 AM
    - No recent deployments
    - Past incident: restart resolved similar issue on 2026-01-15
    
    [Approve] [Deny]
    
  4. Du godkänner (eller i autonomt läge körs agenten omedelbart).

  5. Agenten kör och verifierar:

    ✓ Restarted prod-api
    ✓ Memory now at 42%
    ✓ Incident resolved
    

Vad hände: Du klickade på Godkänn och agenten hanterade undersökning, åtgärd och verifiering.

Redovisningsspårning

Systemet registrerar alla åtgärdsåtgärder tillsammans med den fullständiga kontexten.

Fält Insamlad information
Identitet Agenten och den hanterade identiteten
Action Den exakta åtgärd som utförts
Tidsstämpel När operationen kördes
Trigger Diagnos eller tillstånd som ledde till åtgärden
Resultat Lyckat eller misslyckat, med verifiering efter åtgärd

Du kan ställa frågor till granskningsspåret i Application Insights via Övervakningsloggar > i agentportalen. Systemet loggar varje az kommando som en AgentAzCliExecution anpassad händelse. Mer information finns i Granskningsagentåtgärder.

Nästa steg