Doporučení pro návrh spolehlivé strategie monitorování a upozorňování

Platí pro toto doporučení kontrolního seznamu spolehlivosti azure Well-Architected Framework:

RE:10 Změřte a publikujte indikátory stavu řešení. Nepřetržitě zachytává data o době provozu a další spolehlivosti z celé úlohy a také z jednotlivých komponent a klíčových toků.

Tato příručka popisuje doporučení pro návrh spolehlivé strategie monitorování a upozorňování. Implementujte tuto strategii, abyste provozní týmy informovali o stavu vašeho prostředí a zajistili, že splňujete stanovené cíle spolehlivosti pro vaše úlohy.

Definice

Období Definice
Metriky Číselné hodnoty, které se shromažďují v pravidelných intervalech. Metriky popisují některé aspekty systému v určitém čase.
Protokoly prostředků Data generovaná systémem. Poskytuje informace o stavu systému.
Trasování Data, která poskytují informace o cestě, kterou požadavek prochází službami a komponentami.

Klíčové strategie návrhu

Než vytvoříte strategii monitorování a upozorňování, proveďte v rámci plánování spolehlivosti pro úlohy následující úlohy:

Vytvořte strategii monitorování a upozorňování, která zajistí, že vaše úlohy fungují spolehlivě. Strategie monitorování a upozorňování poskytuje provozním týmům povědomí, aby byly informovány o změnách stavu vaší úlohy a mohly rychle řešit problémy. Vytvořte robustní a spolehlivou strategii monitorování vytvořením modelu stavu pro kritické toky a komponenty, které tyto kritické toky tvoří. Model stavu definuje stav, stav v pořádku, degradovaný stav a stav, který není v pořádku. Navrhněte provozní stav, abyste okamžitě zachytili změny v těchto stavech. Když se stav změní z stavu na snížený nebo v pořádku, aktivují mechanismy upozornění automatická nápravná opatření a upozorní příslušné týmy.

Implementujte následující doporučení a navrhněte strategii monitorování a upozorňování, která splňuje požadavky vaší firmy.

Obecné pokyny

  • Seznamte se s rozdíly mezi metrikami, protokoly a trasováními.

  • Povolte protokolování pro všechny cloudové prostředky. Pomocí automatizace a zásad správného řízení ve vašich nasazeních můžete povolit protokolování diagnostiky v celém prostředí.

  • Předá všechny diagnostické protokoly centralizované datové jímce a analytické platformě, jako je pracovní prostor služby Log Analytics. Pokud máte požadavky na suverenitu místních dat, musíte použít místní jímky dat v oblastech, na které se tyto požadavky vztahují.

Kompromis: Ukládání a dotazování protokolů má vliv na náklady. Všimněte si, jak analýza a uchovávání protokolů ovlivňuje váš rozpočet, a určete nejlepší rovnováhu využití, aby splňovala vaše požadavky. Další informace najdete v tématu Osvědčené postupy pro optimalizaci nákladů.

  • Pokud se na vaše úlohy vztahuje jedna nebo více architektur dodržování předpisů, některé protokoly komponent, které zpracovávají citlivé informace, podléhají také těmto architekturám. Odešlete příslušné protokoly komponent do systému pro správu informací o zabezpečení a událostí (SIEM), jako je Microsoft Sentinel.

  • Vytvořte zásadu uchovávání protokolů , která zahrnuje požadavky na dlouhodobé uchovávání, které architektury dodržování předpisů ukládají na vaši úlohu.

  • Použití strukturovaného protokolování pro všechny zprávy protokolu k optimalizaci dotazování dat protokolu.

  • Nakonfigurujte upozornění tak, aby se aktivovala, když hodnoty překročí kritické prahové hodnoty, které korelují se změnou stavu modelu stavu, například ze zelené na žlutou nebo červenou.

    Konfigurace prahové hodnoty je postup průběžného zlepšování. Jak se vaše úloha vyvíjí, prahové hodnoty, které definujete, se můžou měnit. V některých případech jsou dynamické prahové hodnoty dobrou volbou pro vaši strategii monitorování.

  • Zvažte použití upozornění, když se stav zlepší, například červená až žlutá nebo červená na zelenou, aby provozní týmy mohly tyto události sledovat pro budoucí použití.

  • Vizualizujte stav prostředí v reálném čase.

  • Pomocí dat shromážděných během incidentů můžete průběžně vylepšovat své modely stavu a strategii monitorování a upozorňování.

  • Začlenění služeb monitorování a upozorňování na cloudovou platformu, včetně:

  • Začleňte účelově sestavené pokročilé monitorování a analýzy, které nabízí váš poskytovatel cloudu, jako jsou nástroje pro přehledy služby Azure Monitor.

  • Implementujte monitorování zálohování a obnovení pro zachycení:

    • Stav replikace dat, aby se zajistilo, že vaše úloha dosáhne obnovení v rámci cílového bodu obnovení (RPO).

    • Úspěšné a neúspěšné zálohování a obnovení.

    • Doba obnovení, která informuje o plánování zotavení po havárii.

Monitorování aplikací

  • Vytvářejte sondy stavu nebo kontrolujte funkce a pravidelně je spouštějte mimo aplikaci. Ujistěte se, že testujete z více míst, která jsou geograficky blízko vašich zákazníků.

  • Protokolujte data, když aplikace běží v produkčním prostředí. Potřebujete dostatek informací k diagnostice příčiny problémů v produkčním stavu.

  • Protokolování událostí na hranicích mezi službami. Tento protokol zahrnuje ID korelace přenášené přes hranice služeb. Pokud transakce prochází více službami a jedna z nich selže, ID korelace vám pomůže sledovat požadavky v celé aplikaci a určit, proč transakce selhala.

  • Použití asynchronního protokolování. Synchronní operace protokolování někdy blokují kód aplikace, což způsobí, že se požadavky zálohují při zápisu protokolů. Použití asynchronního protokolování k zachování dostupnosti během protokolování aplikace.

  • Oddělte protokolování aplikace od auditování. Záznamy auditu se běžně uchovávají kvůli dodržování předpisů nebo zákonným požadavkům a musí být úplné. Pokud se chcete vyhnout vyřazeným transakcím, udržujte protokoly auditu odděleně od diagnostických protokolů.

  • Pomocí korelace telemetrie zajistíte, že můžete mapovat transakce prostřednictvím komplexní aplikace a kritických systémových toků. Tento proces je nezbytný pro provádění analýzy původní příčiny (RCA) selhání. Shromážděte z aplikace metriky a protokoly na úrovni platformy, jako je procento procesoru, vstup do sítě, síťový provoz a operace s diskem za sekundu, abyste mohli informovat model stavu a zjišťovat a předpovídat problémy. Tento přístup může pomoct rozlišovat mezi přechodnými a nepřekládavými chybami.

  • Monitorování bílých políček slouží k instrumentaci aplikace pomocí sémantických protokolů a metrik. Shromážděte z aplikace metriky a protokoly na úrovni aplikace, jako je spotřeba paměti nebo latence požadavků, abyste mohli informovat model stavu a zjišťovat a předpovídat problémy.

  • Monitorování černé skříňky slouží k měření služeb platformy a výsledného prostředí pro zákazníky. Monitorování black boxu testuje externě viditelné chování aplikace bez znalosti vnitřních prvků systému. Tento přístup je běžný pro měření indikátorů úrovně služeb orientovaných na zákazníky, cílů úrovně služeb (SLO) a smluv o úrovni služeb (SLA).

Poznámka

Další informace o monitorování aplikací najdete v tématu Model monitorování koncových bodů stavu.

Monitorování dat a úložiště

  • Monitorujte metriky dostupnosti kontejnerů úložiště. Když tato metrika klesne pod 100 %, znamená to, že zápisy selhávají. K přechodnému poklesu dostupnosti může dojít, když zatížení spravuje váš poskytovatel cloudu. Sledujte trendy dostupnosti a zjistěte, jestli nedošlo k problému s vaší úlohou.

    V některých případech pokles metrik dostupnosti kontejneru úložiště značí kritický bod ve výpočetní vrstvě, který je přidružený ke kontejneru úložiště.

  • Existuje mnoho metrik, které je potřeba monitorovat pro databáze. V kontextu spolehlivosti patří mezi důležité metriky, které je potřeba monitorovat, následující:

    • Doba trvání dotazu

    • Časové limity

    • Čekací doby

    • Přetížení paměti

    • Zámky

Usnadnění Azure

  • Azure Monitor je komplexní řešení pro monitorování, které slouží ke shromažďování, analýze a reagování na data monitorování z cloudových a místních prostředí.

  • Log Analytics je nástroj v Azure Portal, který slouží k úpravě a spouštění dotazů na protokoly na data v pracovním prostoru služby Log Analytics.

  • Application Insights je rozšíření služby Azure Monitor. Poskytuje funkce monitorování výkonu aplikací (APM).

  • Přehledy služby Azure Monitor jsou pokročilé analytické nástroje, které pomáhají monitorovat služby Azure, jako jsou virtuální počítače, aplikační služby a kontejnery. Přehledy jsou založené na Azure Monitoru a Log Analytics.

  • Azure Monitor pro řešení SAP je nativní monitorovací produkt pro prostředí SAP, který běží v Azure.

  • Azure Policy pomáhá vynucovat standardy organizace a vyhodnocovat dodržování předpisů ve velkém.

  • Centrum pro Kontinuitu Podnikání Azure poskytuje přehled o vašich aktivech pro provozní kontinuitu. Při uplatňování přístupů pro provozní kontinuitu a zotavení po havárii (BCDR) použijte Centrum pro Kontinuitu Podnikání Azure k centralizaci správy ochrany provozní kontinuity napříč Azure a hybridními úlohami. Centrum pro Kontinuitu Podnikání Azure přesně určit prostředky, které nemají odpovídající ochranu (prostřednictvím zálohování nebo zotavení po havárii), a provádět opravné akce. Tento nástroj usnadňuje jednotné monitorování a umožňuje zajistit dodržování zásad správného řízení a auditování prostřednictvím Azure Policy, které jsou snadno dostupné na jednom místě.

  • Osvědčené postupy pro více pracovních prostorů najdete v tématu Návrh architektury pracovního prostoru služby Log Analytics.

Příklad

Příklady řešení pro monitorování z reálného světa najdete v tématech Monitorování webových aplikací v Azure a Základní architektura pro cluster Azure Kubernetes Service.

  • Azure Monitor Baseline Alerts (AMBA) je centrální úložiště definic upozornění, které můžou zákazníci a partneři použít k vylepšení možností pozorování prostřednictvím přijetí služby Azure Monitor.

Kontrolní seznam pro spolehlivost

Projděte si kompletní sadu doporučení.