Résumé
Personne ne peut éviter les incidents. Quelle que soit la taille du système que vous exécutez, il rencontrera une défaillance à un moment donné et vous connaîtrez une panne. C’est un fait. C’est pour cela que la réponse aux incidents constitue le deuxième niveau de la hiérarchie de la fiabilité de Dickerson, juste après la supervision.
La question devient alors : Comment réagissez-vous dans ces moments-là ? Répondez-vous dans l’urgence en utilisant un plan ou processus défini ou bien réagissez-vous de manière ad hoc ? Des recherches dans ce domaine ont montré que le délai de récupération est l’un des indicateurs d’une organisation hautes performances. Il est crucial d’avoir un bon processus de réponse aux incidents pour réduire ce délai de récupération.
Dans ce module, nous avons examiné les phases d’un incident et découvert une partie des composants clés d’un plan de réponse aux incidents à chacune de ces phases. Nous avons expliqué combien il est important d’effectuer un bon suivi des incidents et décrit des méthodes pour automatiser ce processus à l’aide d’outils que fournit Azure. Nous avons également examiné les principaux aspects que revêt la communication pendant un incident. Enfin, nous avons découvert certains des outils fournis par Azure qui peuvent aider votre organisation à être plus efficace pendant la phase de correction d’un incident.