Dela via


Rotorsaksanalys i Azure SRE-agent

Tips/Råd

  • Använd hypotesdriven undersökning, inte slumpmässig loggsökning.
  • Ange en fullständig beviskedja som visar varför detta är orsaken.
  • Kom ihåg liknande tidigare incidenter och deras korrigeringar.

Problemet: loggsökning är inte undersökning

De flesta felsökningar börjar med "visa mig felen". Du kör frågor mot loggar, bläddrar igenom resultat, kopierar en tidsstämpel, växlar verktyg och kör en annan fråga. Du undersöker inte. Du korrelerar data manuellt och håller resonemanget i huvudet.

Det verkliga problemet är inte att hitta loggar. Det handlar om att veta vilka frågor som ska ställas, vilka verktyg som ska kontrolleras och hur man kopplar samman punkterna mellan loggar, mätvärden, distributioner och tidigare incidenter. Den mentala modellen finns i huvudet på dina seniora ingenjörer, och de kan inte vara med i varje samtal. Nya teammedlemmar spenderar timmar på problem som veteraner löser på några minuter, eftersom resonemanget inte dokumenteras någonstans.

Så löser Azure SRE Agent det här problemet

Diagram som visar rotorsaksanalysflödet från bevisinsamling via hypotesvalidering till slutsats.

Din agent undersöker som en SRE-expert. Det söker inte bara efter loggar. Den bildar hypoteser om vad som gick fel och validerar systematiskt var och en med hjälp av bevis.

  1. Samlar in kontext: Frågar Application Insights, Azure Monitor, distributionshistorik, aktivitetsloggar och resursegenskaper.
  2. Formulärhypoteser: Genererar teorier baserat på bevismönstret.
  3. Validerar var och en: Testar hypoteser systematiskt och utesluter falska leads.
  4. Förklarar slutsatsen: Visar hela resonemangsspåret med stödjande bevis och citat.

Vad gör detta annorlunda

Till skillnad från loggsökning resonerar agenten kring problemet. Visa mig fel" ger dig data att tolka. Din agent tolkar data åt dig genom att skapa teorier, testa dem och förklara slutsatser.

Till skillnad från statiska instrumentpaneler anpassar sig agenten till den specifika incidenten. Det visar inte bara mätningsresultat. Den bestämmer vilka mått som är viktiga, korrelerar dem med andra bevis och anger varför.

Till skillnad från skript hanterar agenten nya situationer. Ett skript kör samma steg varje gång. Din agent resonerar om vad som är annorlunda den här gången och justerar undersökningen i enlighet med detta.

Förmåga Vad den bidrar med
Minne "Vi såg det här exakta problemet för tre veckor sedan. Korrigeringen var X."
Kunskapsbas Dina runbooks och arkitekturdokument vägleder hypotesbildning
Källkod Korrelera fel med källkod och hitta relaterade ändringar
Underagenter Delegera till tjänstspecifika specialister (Application Insights, AKS, Container Apps med mera)

Före och efter

Kategori före Efter
Undersökningsmetod Sökloggar, hoppas du hittar något Agentformulär och testhypoteser
Öppnade verktyg 4+ portaler, manuell korrelation 0 (agenten frågar alla källor)
Reasoning "Jag tror att det är databasen..." Databasens DTU är 98 %, validerad
Bevisspår I ditt huvud Fullständig kedja med förklaring
Nästa gång Börja från början Minnet återkallar liknande incidenter

Exempel: Undersökning av tidsgränsen för databasen

Symptom: "500 fel på /api/orders-slutpunkten"

HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED

HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED

ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.

RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)

Get started

Rotorsaksanalys fungerar automatiskt med Azures inbyggda verktyg. Tänk på följande förbättringar för att möjliggöra djupare analys.

Förbättring Vad det möjliggör Inställningar
Källkontroll Fel-till-kod-korrelation, semantisk kodsökning Ansluta källkod
Kunskapsbas Kontext för hypotesgenerering Ladda upp kunskap
Anpassad telemetri Affärsmått i Kusto Kusto-anslutningsprogram

Nästa steg