Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Tips/Råd
- Använd hypotesdriven undersökning, inte slumpmässig loggsökning.
- Ange en fullständig beviskedja som visar varför detta är orsaken.
- Kom ihåg liknande tidigare incidenter och deras korrigeringar.
Problemet: loggsökning är inte undersökning
De flesta felsökningar börjar med "visa mig felen". Du kör frågor mot loggar, bläddrar igenom resultat, kopierar en tidsstämpel, växlar verktyg och kör en annan fråga. Du undersöker inte. Du korrelerar data manuellt och håller resonemanget i huvudet.
Det verkliga problemet är inte att hitta loggar. Det handlar om att veta vilka frågor som ska ställas, vilka verktyg som ska kontrolleras och hur man kopplar samman punkterna mellan loggar, mätvärden, distributioner och tidigare incidenter. Den mentala modellen finns i huvudet på dina seniora ingenjörer, och de kan inte vara med i varje samtal. Nya teammedlemmar spenderar timmar på problem som veteraner löser på några minuter, eftersom resonemanget inte dokumenteras någonstans.
Så löser Azure SRE Agent det här problemet
Din agent undersöker som en SRE-expert. Det söker inte bara efter loggar. Den bildar hypoteser om vad som gick fel och validerar systematiskt var och en med hjälp av bevis.
- Samlar in kontext: Frågar Application Insights, Azure Monitor, distributionshistorik, aktivitetsloggar och resursegenskaper.
- Formulärhypoteser: Genererar teorier baserat på bevismönstret.
- Validerar var och en: Testar hypoteser systematiskt och utesluter falska leads.
- Förklarar slutsatsen: Visar hela resonemangsspåret med stödjande bevis och citat.
Vad gör detta annorlunda
Till skillnad från loggsökning resonerar agenten kring problemet. Visa mig fel" ger dig data att tolka. Din agent tolkar data åt dig genom att skapa teorier, testa dem och förklara slutsatser.
Till skillnad från statiska instrumentpaneler anpassar sig agenten till den specifika incidenten. Det visar inte bara mätningsresultat. Den bestämmer vilka mått som är viktiga, korrelerar dem med andra bevis och anger varför.
Till skillnad från skript hanterar agenten nya situationer. Ett skript kör samma steg varje gång. Din agent resonerar om vad som är annorlunda den här gången och justerar undersökningen i enlighet med detta.
| Förmåga | Vad den bidrar med |
|---|---|
| Minne | "Vi såg det här exakta problemet för tre veckor sedan. Korrigeringen var X." |
| Kunskapsbas | Dina runbooks och arkitekturdokument vägleder hypotesbildning |
| Källkod | Korrelera fel med källkod och hitta relaterade ändringar |
| Underagenter | Delegera till tjänstspecifika specialister (Application Insights, AKS, Container Apps med mera) |
Före och efter
| Kategori | före | Efter |
|---|---|---|
| Undersökningsmetod | Sökloggar, hoppas du hittar något | Agentformulär och testhypoteser |
| Öppnade verktyg | 4+ portaler, manuell korrelation | 0 (agenten frågar alla källor) |
| Reasoning | "Jag tror att det är databasen..." | Databasens DTU är 98 %, validerad |
| Bevisspår | I ditt huvud | Fullständig kedja med förklaring |
| Nästa gång | Börja från början | Minnet återkallar liknande incidenter |
Exempel: Undersökning av tidsgränsen för databasen
Symptom: "500 fel på /api/orders-slutpunkten"
HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED
HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED
ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.
RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)
Get started
Rotorsaksanalys fungerar automatiskt med Azures inbyggda verktyg. Tänk på följande förbättringar för att möjliggöra djupare analys.
| Förbättring | Vad det möjliggör | Inställningar |
|---|---|---|
| Källkontroll | Fel-till-kod-korrelation, semantisk kodsökning | Ansluta källkod |
| Kunskapsbas | Kontext för hypotesgenerering | Ladda upp kunskap |
| Anpassad telemetri | Affärsmått i Kusto | Kusto-anslutningsprogram |