Análise post-mortem sem culpa

Concluído

As organizações que praticam DevOps desejam encarar erros e equívocos com a meta de aprender. Realizar análises post-mortem sem atribuição de culpa em casos de interrupções e acidentes faz parte dessa meta.

Ter uma cultura justa significa que você está fazendo um esforço para equilibrar a segurança e a responsabilidade. Isso significa que, ao investigar os erros de modo a concentrar-se nos aspectos situacionais de uma falha e no processo de tomada de decisão das pessoas perto da falha, uma organização pode se tornar mais segura do que se tivesse punido as pessoas envolvidas.

Uma análises post-mortem sem atribuição de culpa significa que os engenheiros cujas ações contribuíram para um acidente podem fornecer uma conta detalhada de:

  • Quais ações realizaram e quando.
  • Quais efeitos foram observados.
  • Quais eram as expectativas.
  • Quais suposições eles fizeram.
  • A compreensão deles da linha do tempo dos eventos como eles ocorreram.

É importante que eles possam apresentar essa conta detalhada sem medo de punição ou retaliação.

Um engenheiro que acredita que será repreendido não tem nenhum incentivo para apresentar uma conta realista e precisa do problema. Não entender como um acidente ocorreu garante que ele ocorreránovamente, se não com o engenheiro original, com outra pessoa.

"Devemos nos esforçar para entender que acidentes não acontecem porque as pessoas apostam e perdem. Acidentes acontecem porque a pessoa acredita que:

… o que está prestes a acontecer não é possível… o que está prestes a acontecer não tem nenhuma conexão com o que ela está fazendo… ou que a possibilidade de obter o resultado pretendido vale qualquer risco."

Erik Hollnagel

Permitir que os engenheiros sejam responsáveis pelas próprias histórias

Uma coisa engraçada acontece quando os engenheiros cometem erros e se sentem seguros em dar detalhes sobre eles. Os engenheiros não apenas estão dispostos a ser responsabilizados, eles ficam empolgados em ajudar o restante da empresa a evitar cometer o mesmo erro no futuro. Eles são, afinal, quem tem mais experiência no que se refere ao erro. Eles devem estar muito envolvidos em elaborar uma correção.

Como fazer habilitar uma "cultura justa"?

  • Incentive o aprendizado realizando análises post-mortem sem atribuição de culpa de interrupções e acidentes.
  • Lembre-se de que a meta é entender como um acidente poderia ter ocorrido para estarmos mais bem equipados para prevenir que ocorra no futuro.
  • Reúna detalhes de várias perspectivas sobre falhas e não puna as pessoas por cometerem erros.
  • Em vez de punir os engenheiros, dê a eles a autoridade necessária para aprimorar a segurança ao permitir que apresentem uma conta detalhada de suas contribuições para as falhas.
  • Habilite e incentive as pessoas que cometem erros a serem especialistas na conscientização do restante da organização sobre como não os cometer no futuro.
  • Aceite que sempre há um espaço discricionário onde os humanos podem decidir agir ou não, e que a avaliação dessas decisões está em uma visão retrospectiva.
  • Aceite que o viés do retrospecto possa prejudicar nossa avaliação dos eventos passados, portanto, trabalhe duro para eliminá-lo.
  • Aceite que também é difícil de escapar do erro de atribuição fundamental, portanto, concentre-se no ambiente e nas circunstâncias em que as pessoas estão trabalhando ao investigar os acidentes.
  • Não se esqueça de garantir que os níveis mais altos (por exemplo, conselhos ou liderança sênior) da organização entendam como o trabalho está realmente sendo feito. Compare com a forma como eles imaginam isso sendo feito por meio de gráficos de Gantt e procedimentos da área exposta (por exemplo, engenheiros e tecnologia).
  • A área exposta a cometer falhas deve informar à organização o limite entre o comportamento apropriado e inadequado. Isso não é algo que a área não exposta a cometer falhas possa descobrir por conta própria.

Falhas acontecem. Para entender como elas acontecem, primeiro precisamos entender nossas reações em caso de falha.