Shrnutí

Dokončeno

K incidentům dochází všude. Pokud spustíte jakýkoli systém s v podstatě libovolnou velikostí, v určitém okamžiku se nezdaří a dojde k výpadku. To je prostě fakt. Proto je reakce na incidenty druhou úrovní v Dickersonově hierarchii spolehlivosti hned po monitorování.

Otázka se pak stane: Jak v těchto momentech reagujete? Reagujete naléhavě pomocí nastaveného plánu nebo procesu, nebo máte ad hoc reakci? Víme z dobrého výzkumu v oblasti, že doba obnovení je jedním z indikátorů vysoce výkonné organizace. Dobrý proces reakce na incidenty je rozhodujícím faktorem snížení doby obnovení.

V tomto modulu jsme se podívali na fáze incidentu a prozkoumali některé z klíčových komponent plánu pro reakci na incident pro každou z těchto fází. Probrali jsme důležitost toho, aby bylo možné dobře sledovat incidenty a způsoby automatizace tohoto procesu pomocí nástrojů, které Poskytuje Azure. Také jsme se podívali na klíčové aspekty komunikace během incidentu. Nakonec jsme prozkoumali některé nástroje, které Azure poskytuje, což vaší organizaci může pomoct efektivněji během nápravy incidentu.