Doporučení pro návrh spolehlivé strategie monitorování a upozorňování
Platí pro toto doporučení kontrolního seznamu pro spolehlivost architektury Azure Well-Architected Framework:
RE:10 | Změřte a publikujte indikátory stavu řešení. Nepřetržitě zachytává data o provozu a dalších spolehlivostech z celé úlohy a také z jednotlivých komponent a klíčových toků. |
---|
Tato příručka popisuje doporučení pro návrh spolehlivé strategie monitorování a upozorňování. Implementujte tuto strategii, aby provozní týmy byly informovány o stavu vašeho prostředí a zajistily, že splníte stanovené cíle spolehlivosti pro vaši úlohu.
Definice
Pojem | definice |
---|---|
Metriky | Číselné hodnoty, které se shromažďují v pravidelných intervalech. Metriky popisují určité aspekty systému v určitém okamžiku. |
Protokoly prostředků | Data, která systém generuje. Poskytuje informace o stavu systému. |
Trasování | Data, která poskytují informace o cestě, kterou požadavek prochází službami a komponentami. |
Klíčové strategie návrhu
Před vytvořením strategie monitorování a upozorňování proveďte pro úlohu v rámci plánování spolehlivosti následující úlohy:
Identifikace kritických a nekritických toků
Proveďte analýzu režimu selhání (FMA) pro vaše toky.
Identifikace cílů spolehlivosti
Návrh pro spolehlivost implementací redundance, škálování, sebezáchování a samoopravení
Návrh robustní testovací strategie
Modelujte stav úlohy a jejích komponent.
Vytvořte strategii monitorování a upozorňování, abyste zajistili, že vaše úloha spolehlivě funguje. Strategie monitorování a upozorňování poskytuje provozním týmům povědomí, aby byli upozorněni na změny stavu vaší úlohy a mohli rychle řešit problémy. Vytvořte robustní a spolehlivou strategii monitorování tím, že vytvoříte model stavu pro důležité toky a komponenty, které tyto kritické toky tvoří. Model stavu definuje stavy, které jsou v pořádku, degradované a nejsou v pořádku. Navrhněte provozní stav tak, aby okamžitě zachytil změny v těchto stavech. Když se stavy stavu změní z dobrého stavu na degradované nebo špatné, aktivují mechanismy upozorňování na automatická nápravná opatření a upozorní příslušné týmy.
Implementujte následující doporučení pro návrh strategie monitorování a upozorňování, která splňuje požadavky vaší firmy.
Implementace celkové strategie monitorování
Seznamte se s rozdíly mezi metrikami, protokoly a trasováními.
Povolte protokolování pro všechny cloudové prostředky. Pomocí automatizace a zásad správného řízení ve vašich nasazeních povolte protokolování diagnostiky v celém prostředí.
Všechny diagnostické protokoly předáte centralizované datové jímce a analytické platformě, jako je pracovní prostor služby Log Analytics. Pokud máte místní požadavky na suverenitu dat, musíte použít místní jímky dat v oblastech, které podléhají těmto požadavkům.
Kompromis: Ukládání a dotazování protokolů má vliv na náklady. Všimněte si, jak analýza a uchovávání protokolů ovlivňuje váš rozpočet, a určete nejlepší rovnováhu využití, aby splňovala vaše požadavky. Další informace najdete v tématu Osvědčené postupy pro optimalizaci nákladů.
Pokud vaše úlohy podléhají jedné nebo více architekturám dodržování předpisů, některé protokoly komponent, které zpracovávají citlivé informace, podléhají také těmto architekturám. Odešlete relevantní protokoly komponent do systému zabezpečení a správy událostí (SIEM), jako je Microsoft Sentinel.
Vytvořte zásadu uchovávání protokolů, která zahrnuje dlouhodobé požadavky na uchovávání informací, které architektury dodržování předpisů pro vaši úlohu ukládají.
Použití strukturovaného protokolování pro všechny zprávy protokolu k optimalizaci dotazování na data protokolu.
Nakonfigurujte upozornění, která se mají aktivovat, když hodnoty projdou kritickými prahovými hodnotami, které korelují se změnou stavu modelu stavu, například zeleně na žlutou nebo červenou.
Konfigurace prahové hodnoty je postupem průběžného vylepšování. S vývojem úloh se můžou změnit prahové hodnoty, které definujete. V některých případech jsou dynamické prahové hodnoty dobrou volbou pro vaši strategii monitorování.
Zvažte použití upozornění, když se stav zlepší, například červeně na žlutou nebo červenou na zelenou, aby provozní týmy mohly tyto události sledovat pro budoucí referenci.
Vizualizujte stav vašeho prostředí v reálném čase.
Pomocí dat shromážděných během incidentů můžete průběžně zlepšovat modely stavu a strategii monitorování a upozorňování.
Začlenění služeb monitorování a upozorňování cloudových platforem, včetně:
Stav na úrovni platformy, jako je Azure Service Health.
Stav na úrovni prostředků, jako je Azure Resource Health.
Začleňte účelově sestavené pokročilé monitorování a analýzy, které váš poskytovatel cloudu nabízí, jako jsou nástroje pro přehledy služby Azure Monitor.
Implementujte monitorování zálohování a obnovení pro zachycení:
Stav replikace dat, aby se zajistilo, že vaše úloha dosáhne obnovení v rámci cíle bodu obnovení (RPO).
Úspěšné a neúspěšné zálohování a obnovení
Doba trvání obnovení, která informuje o plánování zotavení po havárii.
Monitorování aplikací
Vytvářejte sondy stavu nebo kontrolujte funkce a pravidelně je spouštějte mimo aplikaci. Ujistěte se, že testujete z více umístění, která jsou geograficky blízko vašim zákazníkům.
Data protokolu, zatímco aplikace běží v produkčním prostředí. Potřebujete dostatek informací k diagnostice příčiny problémů v produkčním stavu.
Protokolování událostí na hranicích mezi službami. Tento protokol zahrnuje ID korelace přenášené přes hranice služeb. Pokud transakce prochází více službami a jedna z nich selže, ID korelace vám pomůže sledovat požadavky v rámci vaší aplikace a určit, proč transakce selhala.
Použití asynchronního protokolování. Synchronní operace protokolování někdy blokují kód aplikace, což způsobuje, že se požadavky zálohují při zápisu protokolů. K zachování dostupnosti během protokolování aplikace použijte asynchronní protokolování.
Oddělte protokolování aplikace od auditování. Záznamy auditu se běžně spravují kvůli dodržování předpisů nebo zákonným požadavkům a musí být dokončené. Abyste se vyhnuli vyřazeným transakcím, udržujte protokoly auditu odděleně od diagnostických protokolů.
Pomocí korelace telemetrie se ujistěte, že můžete mapovat transakce prostřednictvím komplexních aplikací a kritických systémových toků. Tento proces je nezbytný pro provádění analýzy původní příčiny (RCA) pro selhání. Shromážděte metriky a protokoly na úrovni platformy, jako je procento procesoru, síť v síti a diskové operace za sekundu, a informujte model stavu a detekujte a predikujte problémy. Tento přístup může pomoct rozlišovat mezi přechodnými a nepřehlednými chybami.
Pomocí monitorování white boxu instrumentujte aplikaci sémantickými protokoly a metrikami. Shromážděte metriky a protokoly na úrovni aplikace, jako je spotřeba paměti nebo latence požadavků, a informovat o modelu stavu a zjišťovat a predikovat problémy.
Monitorování černé skříňky slouží k měření služeb platformy a výsledného prostředí pro zákazníky. Black Box monitoruje externě viditelné chování aplikace bez znalosti vnitřních vlastností systému. Tento přístup je běžný pro měření ukazatelů úrovně služeb (SLA), cílů na úrovni služeb (SLA) a smluv o úrovni služeb (SLA).
Poznámka:
Další informace o monitorování aplikací najdete v tématu Model monitorování koncových bodů stavu.
Monitorování dat a úložiště
Monitorujte metriky dostupnosti kontejnerů úložiště. Když tato metrika klesne pod 100 procent, značí selhání zápisů. K přechodným poklesům dostupnosti může dojít, když poskytovatel cloudu spravuje zatížení. Sledujte trendy dostupnosti a zjistěte, jestli u vaší úlohy nedochází k problému.
V některých případech pokles metrik dostupnosti pro kontejner úložiště označuje kritický bod ve výpočetní vrstvě, která je přidružená ke kontejneru úložiště.
Existuje mnoho metrik, které je potřeba monitorovat pro databáze. V kontextu spolehlivosti mezi důležité metriky, které se mají monitorovat, patří:
Doba trvání dotazu
Časové limity
Doby čekání
Přetížení paměti
Zámky
Usnadnění azure
Azure Monitor je komplexní řešení monitorování, které se používá ke shromažďování, analýze a reagování na data monitorování z cloudových a místních prostředí.
Log Analytics je nástroj na webu Azure Portal, který slouží k úpravám a spouštění dotazů protokolu na data v pracovním prostoru služby Log Analytics.
Application Insights je rozšíření služby Azure Monitor. Poskytuje funkce monitorování výkonu aplikací (APM).
Přehledy Azure Monitoru jsou pokročilé analytické nástroje, které pomáhají monitorovat služby Azure, jako jsou virtuální počítače, aplikační služby a kontejnery. Přehledy jsou postavené na službě Azure Monitor a Log Analytics.
Azure Monitor pro řešení SAP je produkt pro monitorování nativní pro Azure pro prostředí SAP, který běží v Azure.
Azure Policy pomáhá vynucovat standardy organizace a vyhodnocovat dodržování předpisů ve velkém měřítku.
Azure Business Continuity Center poskytuje přehled o vašich aktivech provozní kontinuity. Při uplatňování přístupů pro provozní kontinuitu a zotavení po havárii (BCDR) využijte Azure Business Continuity Center k centralizaci správy ochrany provozní kontinuity napříč Azure a hybridními úlohami. Azure Business Continuity Center označuje prostředky, které nemají správnou ochranu (prostřednictvím zálohování nebo zotavení po havárii) a provádí nápravné akce. Nástroj usnadňuje jednotné monitorování a umožňuje vytvářet zásady správného řízení a auditování dodržování předpisů prostřednictvím služby Azure Policy, a to vše pohodlně přístupné na jednom místě.
Osvědčené postupy pro více pracovních prostorů najdete v tématu Návrh architektury pracovního prostoru služby Log Analytics.
Příklad
Příklady řešení pro monitorování z reálného světa najdete v tématu Monitorování webových aplikací v Azure a základní architektuře pro cluster Azure Kubernetes Service.
Související odkazy
- Upozorňování pro DevOps
- Upozorňování na operace
- Pokyny k monitorování a diagnostice
- Monitorování webových aplikací v Azure
Komunitní odkazy
- Azure Monitor Baseline Alerts (AMBA) je centrální úložiště definic výstrah, které můžou zákazníci a partneři využít ke zlepšení jejich pozorovatelnosti prostřednictvím přijetí služby Azure Monitor.
Kontrolní seznam pro spolehlivost
Projděte si kompletní sadu doporučení.