Présentation
La hiérarchie de fiabilité de Dickerson offre une carte pour naviguer dans les défis en matière de fiabilité ; ce qui doit être traité et dans quel ordre. Comme d’autres hiérarchies de ce genre, il est important que le niveau sur lequel vous êtes est solide avant de monter la pyramide.
À partir de la base, les sept niveaux sont les suivants :
- Surveillance : vous ne pouvez pas améliorer ce que vous ne pouvez pas voir.
- Réponse aux incidents : processus fiables et reproductibles pour réagir lorsque les alertes se déclenchent.
- Révision post-incident : Apprentissage des incidents qui se produisent (le focus de ce module).
- Test et mise en production : intercepter les régressions avant d’atteindre la production.
- Planification de la capacité : s’assurer que le système dispose des ressources dont il a besoin pour répondre à la demande.
- Développement : Écriture de logiciels fiables.
- Produit : Création de la bonne chose pour les utilisateurs.
Ce module traite approximativement le niveau au milieu de la pyramide. Après avoir traité votre surveillance et votre réponse aux incidents (peut-être avec l’aide d’autres modules Learn dans ce parcours d’apprentissage), vous avez maintenant la possibilité de vous concentrer sur les principes et les pratiques qui peuvent vous aider à améliorer votre pratique des opérations.
La hiérarchie est adaptée à la hiérarchie des besoins de fiabilité de Mikey Dickerson.
Dans ce module, nous nous concentrons sur les révisions post-incidents qui peuvent vous aider à tirer des enseignements de l’échec, ce qui améliore la fiabilité.
Une fois ce module terminé, vous allez :
- Découvrez l’importance d’apprendre des incidents.
- Comprendre les aspects des systèmes complexes qui rendent l’apprentissage de l’échec important.
- Découvrez quand et comment effectuer une révision post-incident.
- Comprendre l’objectif et les objectifs d’une révision post-incident.
- Découvrez les éléments qui composent une bonne revue post-incident.
- Explorez les outils Azure qui peuvent vous aider à prendre en main les révisions post-incident.
- Prenez conscience des pièges courants à éviter.
- Identifiez les pratiques utiles pour effectuer une meilleure révision.
Une histoire d’introduction
Pour définir la scène de ce module, voici une histoire vraie (ou la moitié de celle-ci, en fait ; nous accédons à la deuxième partie plus loin dans ce module) :
Pendant la Seconde Guerre mondiale, l’avion B-17 « Flying Fortress » a été impliqué dans une série d’accidents. Nous ne connaissons pas tous les détails de ces accidents, et nous ne savons pas exactement combien il y avait. C’était le temps de guerre, et beaucoup de détails étaient secrets et reste secret. Ce que nous savons, c’est qu’il y avait un nombre important d’incidents similaires impliquant de nombreux aéronefs individuels. Les retellings historiques ont tendance à se concentrer sur les aéronefs endommagés plutôt que sur les blessures graves, mais le dossier des temps de guerre est incomplet.
Dans chaque cas, ce qui se passerait est ceci : un B-17 arriverait à terre, atterrirait avec succès, puis sur la piste ou en roulant vers le hangar, quelque chose d’étrange se produirait. Quelque chose de grave se produirait. Le B-17 serait sur le sol et tout d’un coup le train d’atterrissage se retirerait, et l’avion s’effondrerait sur la piste.
Dans chaque cas, les enquêteurs recherchent des preuves de défaillance mécanique ou électrique, et dans chaque cas, ils n’ont pas pu trouver. Ainsi, ce qu’ils ont conclu était qu’il s’agissait d’un cas d’erreur pilote, que les pilotes avaient retiré par erreur le train d’atterrissage.
Voici deux informations supplémentaires : les enquêteurs ont été corrects qu’aucune défaillance mécanique ou électrique n’avait eu lieu. Les accidents se sont maintenus.
Ces informations peuvent vous amener à être mécontent de la conclusion initiale atteinte à propos de ces accidents, peut-être vous laisser vous demander si c’est toute l’histoire. Dans ce module, nous allons proposer qu’il manque quelque chose dans cette conclusion et dans les enquêtes qui l’ont conduit.