Práticas úteis para aprender com a falha
- 6 minutos
Agora que você está ciente de algumas das armadilhas comuns que podem sabotar ou pelo menos limitar o valor que você pode obter de suas revisões pós-incidente, a próxima pergunta lógica é "o que você deve fazer em vez disso?"
Nesta unidade, você aprenderá sobre quatro práticas úteis que podem melhorar o processo de análise pós-incidente.
Prática 1: executar uma revisão pós-incidente facilitada
Você já sabe que uma revisão pós-incidente não é um documento ou relatório—o ideal é uma conversa—então, isso significa que apenas ter uma única pessoa redigindo um "pós-mortem" do que aconteceu sem qualquer discussão não torna uma revisão pós-incidente útil. Não importa o quão experiente ou quão profundamente envolvida no incidente essa pessoa possa ser, não muito será aprendido se tudo vier de um único ponto de vista.
Reunir aqueles que estavam envolvidos no incidente ao mesmo tempo é o primeiro passo. Geralmente, é útil ter um facilitador nessa reunião que possa ajudar a orientar a discussão. Idealmente, esse facilitador deve ser alguém "neutro" que realmente não participou do incidente em si. Todos aprenderão mais se o facilitador não parecer ter ideias preconcebidas ou uma agenda pessoal para contar a história do incidente.
O formato exato da reunião dependerá da sua equipe, do agendamento e da natureza do incidente, mas aqui estão algumas diretrizes básicas:
- Reuniões, não maratonas: as reuniões não precisam ser longas. Geralmente, 60 a 90 minutos é o período máximo de tempo que a maioria das pessoas pode se concentrar totalmente e participar efetivamente, portanto, limitar a reunião a não mais de uma hora e meia.
- Preparação pré-reunião: para fazer melhor uso do tempo de reunião, pode ser útil para o facilitador se preparar realizando entrevistas um-para-um com alguns dos membros da equipe de resposta para obter uma visão geral do incidente e ideias sobre quais tópicos discutir na reunião. Entrevistas individuais podem ser compartilhadas com o grupo se houver preocupação com questões interpessoais ou de personalidade dificultando a reunião (ou se os indivíduos sentem desconfortáveis em apresentar-se na frente do grupo por qualquer motivo).
- Não é necessário para cada incidente: este é um processo de aprendizado e você está "aprendendo a aprender", então comece pequeno. Você não precisa fazer isso para todos os incidentes. Você pode escolher à vontade. Talvez você queira começar com incidentes menores ou começar com uma reunião de revisão apenas uma vez por mês.
A reunião de revisão pós-incidente é uma oportunidade para descobrir o que deu errado, o que foi feito corretamente e como você pode lidar melhor com falhas no futuro. O objetivo final é melhorar a confiabilidade.
Prática 2: Fazer perguntas melhores
Você já sabe que a linguagem é importante e, na revisão pós-incidente, isso se aplica especialmente às perguntas que você faz. Perguntas objetivas geralmente provocarão respostas mais úteis.
Em particular, é melhor perguntar às pessoas "como" ou "o quê" em vez de "por quê".
Quando as pessoas são solicitadas a explicar "por que" fizeram algo ou "por que" algo aconteceu, isso tende a colocá-las na defensiva. Começar uma pergunta com "por que" muitas vezes aparece como um julgamento, crítica ou acusação. Isso força as pessoas a justificar suas ações, e as pessoas nem sempre sabem por que fizeram algo ou por que algo aconteceu como resultado de suas ações. Também pode levar as pessoas a pular diretamente para uma causa problemática ou uma conclusão, ignorando uma riqueza de informações que poderiam ser discutidas. Por exemplo, se você perguntar "por que o sistema parou de funcionar?" a resposta pode ser "Porque o disco foi preenchido". Isso ignora diretamente questões importantes como "como você notou que havia um problema com o disco?" ou até mesmo "qual foi a primeira coisa que você verificou no sistema o que levou você a verificá-lo?"
Isso não significa que você não possa explorar os fatores contribuintes para o incidente ou o raciocínio que uma pessoa usou para decidir o que fazer em resposta a eles, isso significa apenas que você deve prestar atenção em como você diz essas perguntas:
Não pergunte "por que você fez isso?"
Em vez disso, pergunte "o que fatorou sua decisão de fazer essa mudança?".
Não pergunte "por que isso não foi detectado no valor canário?"
Em vez disso, pergunte "Geralmente o valor canário é eficiente na detecção deste tipo de problema?"
Lembre-se de que a revisão pós-incidente é sobre aprendizado. É provável que cada participante do incidente tenha uma visão ligeiramente diferente dos eventos. Você aprenderá mais se fizer perguntas que revelem essas múltiplas visões e interpretações.
Muitas vezes você aprenderá tanto perguntando sobre como o trabalho "normalmente" acontece quanto perguntando sobre o incidente específico.
Para saber mais sobre como fazer perguntas melhores, confira este recurso:
Guia de facilitação do registro pós-evento do Etsy
Prática 3: Perguntar como as coisas foram bem
Quando você pensa em aprender com o fracasso, você pode esquecer que mesmo dentro de uma grande interrupção ou outro incidente, além das coisas que dão errado, também há coisas que dão certo. Longe de nossa visão de incidentes como pontuais ou produtos de condições extremas, na maioria dos sistemas complexos as coisas dão errado por muitas das mesmas razões que dão certo.
É da natureza humana focar suas perguntas no lado negativo da equação. No entanto, também perguntar sobre como as coisas deram certo fornecerá insights que você não teria obtido de outra forma.
Não pergunte apenas como a interrupção aconteceu, pergunte sobre como você se recuperou, também.
Você vai querer saber quais insights, ferramentas, habilidades e pessoas ajudaram no esforço de recuperação. Essas são coisas que você deseja ser capaz de reproduzir, portanto, essas informações são valiosas no planejamento do que fazer daqui para frente.
Neste contexto, você quer perguntar como as pessoas souberam o que sabiam e em que base tomaram as decisões que tomaram. Houve um momento crítico em que alguém compartilhou uma informação que ajudou a desbloquear o quebra-cabeça do que estava acontecendo? Como eles sabiam fazer isso? De onde vieram as informações?
Procure temas e padrões. Finalmente, como parte do reconhecimento do que deu certo, pergunte "O que você sabe agora que não sabia anteriormente?" Se a aprendizagem resultou do incidente e dos processos de resposta e revisão de incidentes, isso é outra coisa que deu certo.
Isso volta a um ponto anterior: temos tanto para aprender sobre como melhorar nossa capacidade de responder, como fazemos sobre como evitar interrupções.
Prática 4: Manter as reuniões de revisão e planejamento separadas
Depois de resolver o incidente imediato, você naturalmente vai querer falar sobre itens de reparo e mitigação futura (e você deve), mas esses tópicos não devem fazer parte da sua reunião de revisão pós-incidente. Sua reunião de revisão pós-incidente tem uma finalidade e permitir a discussão de itens de reparo nessa reunião distrai dessa finalidade.
O melhor plano é discutir itens de reparo e problemas de planejamento em uma reunião separada um ou dois dias após sua revisão pós-incidente. Talvez você queira fazer isso com um grupo menor.
Isso ajudará de duas maneiras:
- Ele ajudará você na revisão pós-incidente. É mais fácil evitar tirar conclusões precipitadas se você não estiver focado em como corrigi-lo.
- Permitir um ou dois dias de tempo de imersão ajudará você a identificar os itens de reparo mais "eficientes em termos de energia"; energia mínima para o impacto máximo. Seu subconsciente pode ajudá-lo; você só precisa dar-lhe tempo.