Importance de la réponse aux incidents

Effectué

Fort des principes et des pratiques de la supervision que vous avez étudiés dans un autre module de ce parcours d’apprentissage, vous allez à présent découvrir ce que vous pouvez faire quand votre supervision révèle un problème. Si vous recevez une alerte actionnable vous informant que vos systèmes ne fonctionnent pas comme prévu, vous devez déclencher une réponse qui va permettre de traiter le problème.

Qu’est-ce qu’un incident ?

La réponse aux incidents a trait aux mesures que vous prenez quand un incident se produit. Mais en quoi consiste précisément un incident ? La réponse peut être subjective ; même les ingénieurs ne sont pas tous d’accord sur ce qu’est un incident. Si vous posez la question au sein de différentes industries et entreprises, vous allez obtenir de nombreuses réponses différentes.

Certains désigneront comme des incidents toutes les perturbations, qu’elles affectent ou non leurs clients. Dans le contexte de ce module, nous convenons qu’un incident se définit comme une perturbation de service : une occurrence ou condition qui affecte la capacité de l’utilisateur à utiliser les services sur lesquels il compte. Il peut s’agir, par exemple, de défaillances des systèmes ou de dysfonctionnements d’une manière qui impacte les clients.

Qu’est-ce que la réponse aux incidents ?

Prévenir tous les problèmes est une ambition louable, mais impossible à réaliser. Certaines choses ne vont pas bien se passer, c’est une certitude, alors nous avons besoin d’un plan pour limiter leur impact sur nos utilisateurs finaux et rétablir un fonctionnement normal le plus rapidement possible.

L’essentiel est de répondre dans l’urgence, plutôt que de réagir. En effet, une réaction a tendance à être plus impulsive et basée sur le moment présent, sans tenir compte des effets à long terme. Une réponse, quant à elle, est réfléchie et organisée, et s’appuie sur des informations.

Votre approche de la réponse aux incidents est déterminante pour votre efficacité dans les tâches suivantes :

  • Comprendre ce qui se passe (diagnostiquer le problème).
  • Trier et hiérarchiser (déterminer l’urgence et la priorité du problème).
  • Engager les ressources appropriées pour atténuer le ou les problèmes.
  • Communiquer avec les parties prenantes à propos du problème.

Après avoir résolu le problème, vous pouvez tirer les leçons de l’incident au moyen d’un processus d’examen post-incident. Ce processus est un sujet important qui fait l’objet d’un module à part entière.

Mesure des performances de la réponse aux incidents

Vous connaissez peut-être l’acronyme TTR qui signifie « Time To Recover », « Time To Remediate » ou encore « Time To Restore », c’est-à-dire Délai de récupération, Délai de correction ou encore Délai de restauration. Toutes ces variantes font référence à la même chose : la durée totale nécessaire pour rétablir des services à un niveau satisfaisant pour les clients.

Cette métrique est une façon de mesurer les performances des équipes qui répondent aux incidents. Plus la récupération/correction/restauration du service est rapide, moins l’impact de la panne ou de la dégradation du service est fort.

Il est important de savoir si votre organisation gère correctement la réponse aux incidents. Chaque année, l’organisation DORA (DevOps Research and Assessment) publie un rapport sur l’état du DevOps. Certains points clés du rapport 2019 se concentraient sur les performances de la réponse aux incidents.

  • Le rapport classait les équipes d’ingénieurs capables de détecter les perturbations de service, d’y répondre et de les corriger en moins d’une heure dans la catégorie des « équipes d’élite ou très performantes ».
  • Celles qui étaient capables d’assurer une récupération après des incidents en moins de 24 heures étaient classées dans la catégorie des « équipes moyennement performantes ».
  • Les « équipes peu performantes » étaient celles qui avaient besoin d’une semaine à un mois pour remédier aux perturbations de service.

La différence entre ces niveaux est considérable. L’étude a montré que les équipes d’élite/très performantes assurent la récupération après des incidents 2 604 fois plus vite que leurs homologues « peu performantes ». Les équipes d’élite/très performantes assurent aussi le déploiement en production 208 fois plus souvent.

Pourquoi et comment les équipes d’élite répondent-elles et rétablissent-elles les services si rapidement par rapport aux autres ? C’est au moins en partie parce qu’elles comprennent l’importance qu’il y a d’avoir déjà un plan de réponse de base en place quand les problèmes arrivent.

Au fil de ce module, vous allez découvrir les caractéristiques et le cycle de vie d’un incident, puis la manière d’utiliser toutes ces connaissances pour créer votre propre plan de base.

Contrôler vos connaissances

1.

Parmi les objectifs suivants, lequel est celui d’une réponse efficace aux incidents ?

2.

Dans quel délai les équipes d’ingénieurs classées dans la catégorie des « équipes d’élite ou très performantes » peuvent-elles en règle générale détecter les perturbations de service, y répondre et les corriger ?