Navrhujte na provoz

Dokončeno
Posun doleva v operacích za účelem předvídání podmínek selhání.

Selhání testů v rané fázi a často v životním cyklu vývoje a určení dopadu výkonu na spolehlivost. Pro účely analýzy původní příčiny a postmortem potřebujete mít sdílený přehled o stavu závislostí a probíhajících selháních napříč týmy. Přehledy, diagnostika a výstrahy z pozorovatelných systémů jsou zásadní pro efektivní řízení incidentů a průběžné vylepšování.

Contoso University provozuje webovou aplikaci vytvořenou na mikroslužbách, které poskytují vzdělávací služby, jako jsou online předměty, pro zaměstnance školy a studenty společnosti Contoso. Úloha je založená na službě Aplikace Azure Service, Azure SQL Database, Microsoft Entra ID, Azure Key Vaultu, Azure Service Bus, Azure Monitoru a Azure DevOps.

Implementace robustního monitorování

Vytvářejte pozorovatelné systémy, které můžou korelovat telemetrii.

Monitorování a diagnostika jsou zásadní operace. Pokud se něco nepovede, musíte vědět, že selhal, když selhal, a proč selhal. Pozorovatelnost na úrovni komponent je zásadní, ale agregovaná pozorovatelnost komponent a korelovaných toků poskytuje ucelený pohled na stav. Tato data jsou nutná k tomu, aby inženýři pro spolehlivost lokality upřednostnili své úsilí o nápravu.

Výzva společnosti Contoso

  • Aplikace úloh se nasadí jako součást sady pěti oddělených služeb napříč několika funkčními úrovněmi.
  • Tým by rád mohl analyzovat transakce a požadavky uživatelů při procházení různých úrovní řešení k identifikaci kritických bodů, které můžou vést k nestabilitě a efektivnějšímu řešení problémů.

Použití přístupu a výsledků

  • Tým úloh pomocí nástrojů komponent zachytává protokoly a metriky pomocí aplikačních Přehledy a konfiguruje protokolování pro všechny služby platformy. Všechny protokoly se předávají do pracovního prostoru služby Azure Monitor úlohy.
  • Data v pracovním prostoru AzM je možné použít k analýze stavu jednotlivých komponent řešení a agregovaných toků a stavu řešení.
  • Korelace položek patřících ke stejnému požadavku napříč komponentami a úrovněmi pomáhá týmu určit stav úloh a usnadnit jejich procesy řešení potíží.

Predikce potenciálních poruch a neobvyklého chování

Zviditelnit aktivní selhání spolehlivosti pomocí prioritních a použitelných výstrah. Investujte do spolehlivých procesů a infrastruktury, které vedou k rychlejšímu třídění.

Inženýři spolehlivosti webu mohou být okamžitě upozorněni, aby mohli zmírnit probíhající incidenty živého webu a proaktivně zmírnit potenciální selhání identifikovaná prediktivními výstrahami předtím, než se stanou živými incidenty.

Výzva společnosti Contoso

  • Tým očekává významné zvýšení provozu na začátku každého termínu, protože se studenti registrují do tříd, přistupují k učebnicích a kupují učebnice.
  • Během tohoto kritického období akademického roku musí tým zajistit, aby byla k dispozici dostatečná kapacita pro zvýšení očekávaného zatížení. Tým také musí být schopný rychle reagovat na další potenciální problémy s dostupností, ke kterým může dojít.

Použití přístupu a výsledků

  • Tým nakonfiguruje webovou a databázovou vrstvu tak, aby automaticky škálovaly kapacitu tak, aby měla před očekávaným nárůstem poptávky dodatečnou kapacitu a aby i nadále přidělila kapacitu při nárůstu zatížení.
  • Plán nouzové reakce se upraví tak, aby diktoval, že tým reakce na incidenty upřednostňuje výstrahy související s toky, které jsou během tohoto období zatížené.

Testování rizik spolehlivosti

Simulace selhání a spouštění testů v produkčním a předprodukčním prostředí

Je výhodné zaznamenat selhání v produkčním prostředí, abyste mohli nastavit realistická očekávání pro obnovení. To vám umožní zvolit návrh, které elegantně reagují na selhání. Umožňuje také otestovat prahové hodnoty, které jste nastavili pro obchodní metriky.

Výzva společnosti Contoso

  • Komunikace mezi webovou vrstvou a službou REST pro registraci studentů v této úloze závisí na klientských certifikátech.
  • Vzhledem k tomu, že funkce registrace studentů se po zahájení termínu moc nepoužívá, pokud vyprší platnost certifikátu používaného službou pro registraci studentů, může se problém nějakou dobu nezjistit.
  • Kromě toho během posledního období registrace došlo k několika přerušením služby kvůli nesprávnému zpracování přechodných selhání připojení systému. Tým provedl několik vylepšení kódu pro zpracování přechodných selhání, ale není si jistý, jak se funkce budou chovat v reálných produkčních scénářích.

Použití přístupu a výsledků

  • Tým vyvíjí syntetické testování transakcí, které se bude spouštět v produkčním prostředí podle měsíčního plánu, aby simuluje několik toků, včetně registračního toku.
  • Upozorňování je nakonfigurované pro syntetické testy transakcí, takže tým bude upozorněn na selhání, které pokrývá riziko vypršení platnosti certifikátů.
  • Kromě toho tým investoval do sestavování testování chaosu do svého SDLC, provádění rutinního testování chaosu a zachycení výsledků pro ověřování technik samozáchozí a pomáhá odhalit dříve neznámé problémy se spolehlivostí.

Prověřte si své znalosti

1.

Pravda nebo nepravda: Příkladem pozorovatelné úlohy je instrumentace aplikace k generování telemetrických dat.

2.

Jaký je atribut dobře navržené strategie upozorňování?

3.

Jaký je jeden ze způsobů, jak může společnost Contoso prokázat, že její úloha může fungovat v degradovaném stavu?