Monitorování provozních problémů v pracovním prostoru služby Azure Monitor Log Analytics

Pokud chcete zachovat výkon a dostupnost pracovního prostoru služby Log Analytics ve službě Azure Monitor, musíte být schopni proaktivně zjišťovat případné problémy. Tento článek popisuje, jak monitorovat stav pracovního prostoru služby Log Analytics pomocí dat v tabulce Operace . Tato tabulka je součástí každého pracovního prostoru služby Log Analytics. Obsahuje chybové zprávy a upozornění, ke kterým dochází ve vašem pracovním prostoru. Doporučujeme vytvořit upozornění na problémy s úrovní upozornění a chyby.

Požadována oprávnění

Musíte mít Microsoft.OperationalInsights/workspaces/query/*/read oprávnění k pracovním prostorům služby Log Analytics, které dotazujete, jak poskytuje integrovaná role Čtenář log Analytics, například.

_LogOperation

Protokoly služby Azure Monitor odesílají informace o všech problémech do tabulky Operací v pracovním prostoru, kde k problému došlo. Systémová _LogOperation funkce je založená na tabulce Operation a poskytuje zjednodušenou sadu informací pro analýzu a upozorňování.

Sloupce

Funkce _LogOperation vrátí sloupce v následující tabulce.

Sloupec Popis
TimeGenerated Čas, kdy došlo k incidentu ve standardu UTC.
Kategorie Skupina kategorií operací Dá se použít k filtrování typů operací a k vytvoření přesnějšího auditování systému a výstrah. Seznam kategorií najdete v následující části.
Operace Popis typu operace. Operace může značit, že došlo k dosažení jednoho z limitů Log Analytics, problému souvisejícímu s back-endovým procesem nebo jakékoli jiné zprávě služby.
Level Úroveň závažnosti problému:
- Informace: Nevyžaduje se žádná zvláštní pozornost.
- Upozornění: Proces se nedokončil podle očekávání a je potřeba věnovat pozornost.
– Chyba: Proces selhal a je potřeba věnovat pozornost.
Podrobnosti Podrobný popis operace, včetně konkrétní chybové zprávy.
_ResourceId ID prostředku Azure souvisejícího s operací
Počítač Název počítače, pokud operace souvisí s agentem služby Azure Monitor.
CorrelationId Slouží k seskupení po sobě jdoucích souvisejících operací.

Kategorie

Následující tabulka popisuje kategorie z _LogOperation funkce.

Kategorie Popis
Příjem dat Operace, které jsou součástí procesu příjmu dat.
Agent Označuje problém s instalací agenta.
Shromažďování dat Operace související s procesy shromažďování dat
Cílení na řešení Operace typu ConfigurationScope byla zpracována.
Řešení posouzení Provedl se proces posouzení.

Příjem dat

Operace příjmu dat jsou problémy, ke kterým došlo během příjmu dat, a obsahují oznámení o dosažení limitů pracovního prostoru služby Log Analytics. Chybové stavy v této kategorii můžou naznačovat ztrátu dat, takže je důležité monitorovat. Omezení služeb pro pracovní prostory Log Analytics najdete v tématu Omezení služby Azure Monitor.

Důležité

Pokud řešíte potíže se shromažďováním dat ve scénáři, ve kterém se používá pravidlo shromažďování dat (DCR), jako je agent Azure Monitor nebo rozhraní API pro příjem protokolů, přečtěte si téma Monitorování a řešení potíží se shromažďováním dat DCR ve službě Azure Monitor , kde najdete další informace o řešení potíží.

Operace: Shromažďování dat se zastavilo.

Shromažďování dat se zastavilo kvůli dennímu limitu dosažení bezplatných dat. Stav příjmu dat = OverQuota"

V posledních 7 dnech došlo k dosažení denního nastaveného limitu shromažďování protokolů. Limit je nastavený buď tak, jak je pracovní prostor nastavený na úroveň Free, nebo byl pro tento pracovní prostor nakonfigurovaný denní limit kolekce. Jakmile shromažďování dat dosáhne nastaveného limitu, automaticky se zastaví pro tento den a obnoví se jenom během následujícího dne shromažďování.

Doporučené akce:

  • Zkontrolujte, jestli _LogOperation v tabulce nejsou zastavené a obnovené události kolekce:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Vytvořte upozornění na událost Operace "Shromažďování dat zastaveno". Tato výstraha vás upozorní, jakmile dosáhnete limitu kolekce.
  • Data shromážděná po dosažení denního limitu shromažďování budou ztracena. Pomocí podokna Přehledy pracovního prostoru můžete zkontrolovat sazby využití z jednotlivých zdrojů. Nebo se můžete rozhodnout spravovat maximální denní objem dat nebo změnit cenovou úroveň na cenovou úroveň , která odpovídá vzoru sazeb shromažďování.
  • Míra shromažďování dat se vypočítá za den a resetuje se na začátku následujícího dne. Událost obnovení kolekce můžete také monitorovat tak , že vytvoříte upozornění na událost operace Obnovení shromažďování dat.

Operace: Rychlost příjmu dat

Míra objemu příjmu dat překročila prahovou hodnotu ve vašem pracovním prostoru: {0:0,00} MB za jednu minutu a data byla zrušena."

Doporučené akce:

  • _LogOperation Zkontrolujte, jestli se v tabulce událostí

    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate" míry příjmu dat:Událost se odešle do tabulky Operací v pracovním prostoru každých šest hodin, zatímco prahová hodnota bude i nadále překročena.
  • Vytvořte upozornění na událost Operace "Shromažďování dat zastaveno". Tato výstraha vás upozorní, jakmile dosáhnete limitu.
  • Data shromážděná v době, kdy míra příjmu dat dosáhla 100 %, se zahodí a ztratí. Pomocí podokna Přehledy pracovních prostorů zkontrolujte vzory využití a zkuste je snížit.
    Další informace najdete tady:

Operace: Maximální počet sloupců tabulky

"Data typu <název> tabulky se vynechala, protože počet nových polí <> překračuje limit počtu> aktuálních <polí na vlastní pole na datový typ."

Doporučená akce: U vlastních tabulek můžete přejít k analýze dat v dotazech.

Operace: Ověření obsahu pole

"Název pole s hodnotami> následujících polí< názvu> tabulky typu <byl oříznut na maximální povolenou velikost, <limit> velikosti pole bajtů. Upravte svůj vstup odpovídajícím způsobem."

Pole větší, než je velikost limitu, zpracovávala protokoly Azure. Pole bylo oříznuto na povolený limit polí. Nedoporučujeme odesílat pole větší než povolený limit, protože výsledkem je ztráta dat.

Doporučené akce:

Zkontrolujte zdroj ovlivněného datového typu:

  • Pokud se data odesílají prostřednictvím rozhraní API kolektoru dat HTTP, musíte před ingestováním změnit kód\script, aby se data rozdělila.
  • U vlastních protokolů shromážděných agentem Log Analytics změňte nastavení protokolování aplikace nebo nástroje.
  • U jakéhokoli jiného datového typu vytvořte případ podpory. Další informace najdete v tématu Omezení služby Azure Monitor.

Shromažďování dat

Následující část obsahuje informace o shromažďování dat.

Operace: Shromažďování protokolů aktivit Azure

Přístup k předplatnému byl ztracen. Ujistěte se, že <je předplatné ID> předplatného <v tenantovi> Microsoft Entra. Pokud se předplatné převede do jiného tenanta, nebude to mít žádný vliv na služby, ale rozšíření informací pro tenanta může trvat až hodinu."

V některých situacích, jako je přesun předplatného do jiného tenanta, můžou protokoly aktivit Azure přestat proudit do pracovního prostoru. V takových situacích je potřeba předplatné znovu připojit podle postupu popsaného v tomto článku.

Doporučené akce:

  • Pokud předplatné uvedené ve zprávě upozornění již neexistuje, přejděte do podokna konektoru protokolu aktivit starší verze v části Classic. Vyberte příslušné předplatné a pak vyberte tlačítko Odpojit .
  • Pokud už nemáte přístup k předplatnému uvedenému v upozornění:
    • Pokud chcete předplatné odpojit, postupujte podle předchozího kroku.
    • Pokud chcete dál shromažďovat protokoly z tohoto předplatného, požádejte vlastníka předplatného, aby opravil oprávnění a znovu povolil shromažďování protokolů aktivit.
  • Vytvořte nastavení diagnostiky pro odeslání protokolu aktivit do pracovního prostoru služby Log Analytics.

Agent

Následující část obsahuje informace o agentech.

Operace: Linux Agent

"Dva následné konfigurační aplikace z OMS Nastavení selhaly."

Nastavení konfigurace na portálu se změnilo.

Doporučená akce: Tento problém se vyvolá v případě, že je problém s načtením nového nastavení konfigurace agentem. Pokud chcete tento problém zmírnit, přeinstalujte agenta. _LogOperation Zkontrolujte tabulku události agenta:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

V seznamu se zobrazí ID prostředků, ve kterých má agent nesprávnou konfiguraci. Pokud chcete tento problém zmírnit, přeinstalujte uvedené agenty.

Pravidla upozornění

Pomocí upozornění prohledávání protokolů ve službě Azure Monitor můžete proaktivně informovat, když se v pracovním prostoru služby Log Analytics zjistí problém. Použijte strategii, která umožňuje včas reagovat na problémy a současně minimalizovat náklady. Vaše předplatné se bude účtovat za každé pravidlo upozornění uvedené v cenách služby Azure Monitor.

Doporučenou strategií je začít se dvěma pravidly upozornění na základě úrovně problému. Pro chyby použijte krátkou frekvenci, například každých 5 minut, a delší frekvenci, například 24 hodin pro upozornění. Protože chyby označují potenciální ztrátu dat, chcete na ně rychle reagovat, abyste minimalizovali jakoukoli ztrátu. Upozornění obvykle značí problém, který nevyžaduje okamžitou pozornost, takže je můžete zkontrolovat každý den.

K vytvoření pravidel upozornění prohledávání protokolu použijte tento proces v části Vytvoření, zobrazení a správa upozornění prohledávání protokolů pomocí služby Azure Monitor . Následující části popisují podrobnosti o jednotlivých pravidlech.

Dotaz Prahová hodnota Období Četnost
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1,440 1,440

Tato pravidla upozornění reagují stejně na všechny operace s chybou nebo upozorněním. Jakmile se seznámíte s operacemi, které generují výstrahy, můžete chtít reagovat odlišně pro konkrétní operace. Můžete například chtít posílat oznámení různým lidem pro konkrétní operace.

Pokud chcete vytvořit pravidlo upozornění pro konkrétní operaci, použijte dotaz, který obsahuje sloupce Kategorie a Operace .

Následující příklad vytvoří upozornění upozornění, když míra objemu příjmu dat dosáhla 80 procent limitu:

  • Cíl: Vyberte pracovní prostor služby Log Analytics.
  • Kritéria:
    • Název signálu: Vlastní prohledávání protokolu
    • Vyhledávací dotaz: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • Na základě: Počet výsledků
    • Podmínka: Větší než
    • Prahová hodnota: 0
    • Období: 5 (minuty)
    • Frekvence: 5 (minuty)
  • Název pravidla upozornění: Bylo dosaženo denního limitu dat
  • Závažnost: Upozornění (sev 1)

Následující příklad vytvoří upozornění upozornění, když shromažďování dat dosáhne denního limitu:

  • Cíl: Vyberte pracovní prostor služby Log Analytics.
  • Kritéria:
    • Název signálu: Vlastní prohledávání protokolu
    • Vyhledávací dotaz: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • Na základě: Počet výsledků
    • Podmínka: Větší než
    • Prahová hodnota: 0
    • Období: 5 (minuty)
    • Frekvence: 5 (minuty)
  • Název pravidla upozornění: Bylo dosaženo denního limitu dat
  • Závažnost: Upozornění (sev 1)

Další kroky