Důležitost reakce na incidenty

Dokončeno

Když budete stavět na principech a postupech monitorování, které jsou popsané v jiném modulu tohoto studijního programu, naučíte se, co dělat, když se při monitorování odhalí problém. Pokud obdržíte výstrahu s možností reakce upozorňující, že vaše systémy nefungují podle očekávání, je to aktivační událost pro reakci na problém.

Co je incident?

Reakce na incident se týká akcí, které provedete, když dojde k incidentu, ale co přesně představuje incident? Odpověď může být subjektivní. Ani všichni technici se nemohou shodnout na tom, co vlastně incident je. Pokud tuto otázku položíte v různých oborech a organizacích, získáte mnoho různých odpovědí.

Některé označí jako incidenty všechna přerušení bez ohledu na to, jestli mají dopad na zákazníky. V kontextu tohoto modulu můžeme souhlasit s tím, že incident je definován jako přerušení služby: výskyt nebo podmínka, která ovlivňuje schopnost uživatele používat služby, na kterých spoléhá. Mezi příklady patří nefunkční nebo tak špatně fungující systémy, že to má vliv na zákazníky.

Co je reakce na incidenty?

Zabránění všem problémům je ladný, ale nemožné cíl. Vždycky se něco pokazí, a proto potřebujeme plán, který omezí dopad na naše koncové uživatele a co nejrychleji vrátí provoz zpět do normálu.

Klíčem je reagovat s naléhavostí , nikoli reagovat. Reakce bývá impulsivnější a je založená na současném okamžiku, nebere v potaz dlouhodobé účinky. Odpověď je dobře promyšlená, uspořádaná a založená na informacích.

Váš přístup k reakci na incidenty určuje vaši efektivitu v oblasti:

  • Pochopení toho, co se děje (diagnostika problému)
  • Třídění (určení naléhavosti) a stanovení priority problému.
  • Zapojení správných prostředků ke zmírnění těchto problémů
  • Komunikace se zúčastněnými stranami o problému

Jakmile problém opravíte, můžete se z incidentu učit prostřednictvím procesu závěrečného vyhodnocení incidentu. Jedná se o důležitou problematiku, které je věnován celý samostatný modul.

Měření výkonu reakce na incidenty

Možná znáte zkratku TTR, která je různě definovaná jako "doba obnovení", "doba nápravy" nebo "doba obnovení". Všechny tyto varianty odkazují na stejnou věc: celkový čas potřebný k tomu, abyste služby vrátili na místo, kde se můžou vrátit k očekávání zákazníků.

Tato metrika představuje jeden ze způsobů měření výkonnosti týmů při reakcích na incidenty. Čím rychleji zvládnete obnovení/nápravu/zotavení, tím menší dopad bude mít výpadek nebo snížení úrovně služby.

Je důležité vědět, jak dobře vaše organizace zpracovává reakce na incidenty. Organizace DevOps Research and Assessment (DORA) vydává každoročně zprávu State of DevOps. Některé z klíčových poznatků ve zprávě z roku 2019 se zaměřovaly na výkonnost reakcí na incidenty.

  • Sestava klasifikuje technické týmy, které mohou detekovat, reagovat a opravovat přerušení služeb za méně než hodinu jako "elitní nebo vysoce výkonné týmy".
  • Ti, kteří byli schopni zotavit se z incidentů do 24 hodin, byli klasifikováni jako "středně výkonné osoby".
  • "Nízké výkony" jsou ti, kteří se mohou zotavit z přerušení služeb mezi 1 týdnem a měsícem.

Rozdíl mezi těmito úrovněmi je velký. Studie zjistila, že elitní/vysoce výkonné týmy se zotavily z incidentů 2 604krát rychleji než jejich "vysoce výkonné" peers. Elitní či vysoce výkonné týmy také provádějí nasazení do produkčního prostředí 208krát častěji.

Proč a jak dochází k tomu, že elitní týmy reagují a obnovují služby mnohem rychleji než ostatní? Částečně je to tím, že chápou důležitost toho, mít už k dispozici připravený dobrý základní plán reakce, když se věci nevyhnutelně pokazí.

Při procházení tímto modulem se seznámíte s charakteristikami a životním cyklem incidentu a naučíte se tyto znalosti používat k vytvoření vlastního základního plánu.

Kontrola znalostí

1.

Která z následujících možností je cílem efektivní reakce na incidenty?

2.

Jak rychle mohou technické týmy, které se označují jako „elitní nebo vysoce výkonné“ obecně detekovat přerušení služby, reagovat na ně a napravit je?