Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Návod
- Používejte šetření řízené hypotézou, ne náhodné prohledávání protokolů.
- Poskytněte úplný řetěz důkazů, který ukazuje, proč je to příčina.
- Vzpomeňte si na podobné minulé incidenty a jejich opravy.
Problém: Prohledávání protokolu není vyšetřování
Většina ladění začíná textem "show me the errors" (Zobrazit chyby). Dotazujete se na protokoly, projdete výsledky, zkopírujete časové razítko, přepnete nástroje a spustíte jiný dotaz. Nevyšetřuješ. Data ručně korezujete a držíte odůvodnění v hlavě.
Skutečný problém není najít protokoly. Vědět, jaké otázky položit, které nástroje zkontrolovat a jak propojit souvislosti napříč protokoly, metrikami, nasazeními a předchozími incidenty. Tento mentální model žije v hlavách vašich vedoucích inženýrů a nemůžou být na každém hovoru. Noví členové týmu tráví hodiny na problémech, které veteráni řeší v řádu minut, protože důvod není nikde zdokumentovaný.
Řešení tohoto problému pomocí agenta Azure SRE
Váš agent prošetřuje jako expert SRE. Neprohledává jenom protokoly. Vytváří hypotézy o tom, co se nepovedlo, a systematicky ověřuje každou z nich pomocí důkazů.
- Shromažďuje kontext: Zasílá dotazy na Application Insights, Azure Monitor, historii nasazení, protokoly aktivit a vlastnosti prostředků.
- Formy hypotéz: Generuje teorie založené na vzoru důkazů.
- Ověřuje každou z nich: Testuje hypotézy systematicky a vylučuje nesprávné směry.
- Vysvětluje závěr: Ukazuje úplnou důvodovou stopu s podpůrnými důkazy a citacemi.
Čím se tento přístup liší
Na rozdíl od prohledávání protokolu váš agent problém zdůvodní. Funkce Zobrazit chyby vám poskytne data, která se mají interpretovat. Váš agent interpretuje data za vás vytvořením teorie, testováním a vysvětlením závěrů.
Na rozdíl od statických řídicích panelů se váš agent přizpůsobí konkrétnímu incidentu. Nezobrazuje jenom metriky. Rozhoduje o tom, které metriky jsou v korelaci s jinými důkazy, a řekne vám, proč.
Na rozdíl od skriptů váš agent zpracovává nové situace. Skript pokaždé spustí stejné kroky. Váš agent zdůvodňuje, co se tentokrát liší, a odpovídajícím způsobem upraví šetření.
Před a po
| Kategorie | před | Po |
|---|---|---|
| Přístup ke zkoumání | Prohledejte protokoly a doufejte, že něco najdete | Agent tvoří a testuje hypotézy |
| Otevřené nástroje | 4+ portály, ruční korelace | 0 (agent se dotazuje na všechny zdroje) |
| Reasoning | "Myslím, že je to databáze..." | Databáze DTU na 98 %, ověřeno |
| Stopa důkazů | V hlavě | Kompletní řetězec s vysvětlením |
| Příště | Začátek od nuly | Paměť připomíná podobné incidenty |
Příklad: Šetření časového limitu databáze
Příznak: Chyby 500 v koncovém bodu /api/orders
HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED
HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED
ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.
RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)
Začínáme
Analýza původní příčiny funguje automaticky s integrovanými nástroji Azure. Pokud chcete povolit hlubší analýzu, zvažte následující vylepšení.
| Vylepšení | Co umožňuje | Setup |
|---|---|---|
| Správa zdrojového kódu | Korelace chyb ke kódu, sémantické vyhledávání kódu | Připojení zdrojového kódu |
| Znalostní báze | Kontext generování hypotéz | Načtení znalostí |
| Vlastní telemetrie | Obchodní metriky v Kusto | Nastavení konektoru Kusto |