Importancia de la respuesta ante incidentes

Completado

Tomando como base los principios y las prácticas de supervisión que se describen en otro módulo de esta ruta de aprendizaje, ahora aprenderá qué hacer cuando la supervisión revela un problema. Si recibe una alerta que requiere una acción en la que se le informa de que los sistemas no funcionan según lo previsto, es el desencadenador de una respuesta para solucionar el problema.

¿Qué es un incidente?

La respuesta ante incidentes se refiere a las acciones que se llevan a cabo cuando se produce un incidente, pero ¿qué constituye exactamente un incidente? La respuesta puede ser subjetiva; de hecho, no todos los ingenieros coinciden en qué es un incidente. Si formula la pregunta en diferentes sectores y organizaciones, obtendrá muchas respuestas dispares.

Algunos consideran que todas las interrupciones son incidentes, tanto si los clientes se ven afectados como si no. En el contexto de este módulo, estamos de acuerdo en que un incidente se define como una interrupción del servicio, es decir, una incidencia o una situación que afecta a la capacidad del usuario de usar los servicios en los que confía. Por ejemplo, los sistemas están inactivos o funcionan de una manera incorrecta que afecta a los clientes.

¿Qué es la respuesta ante incidentes?

La prevención de todos los problemas es un objetivo loable, pero imposible. Es inevitable que se produzcan problemas, por lo que necesitamos un plan para limitar el impacto en los usuarios finales y restituir las operaciones a la normalidad lo antes posible.

La clave consiste en responder con la mayor urgencia, en lugar de reaccionar. Una reacción tiende a ser más impulsiva y basarse en el momento actual, sin tener en cuenta las consecuencias a largo plazo. En cambio, una respuesta está bien pensada, organizada y se basa en información.

El enfoque de la respuesta ante incidentes determina la eficacia en los siguientes aspectos:

  • Entender qué está ocurriendo (diagnosticar el problema).
  • Clasificar (determinar la urgencia) y priorizar el problema.
  • Emplear los recursos adecuados para mitigar los problemas.
  • Comunicar el problema a las partes interesadas.

Una vez corregido el problema, puede obtener información del incidente mediante un proceso de revisión posterior. Este es un aspecto importante al que se ha dedicado un módulo independiente que vale la pena debatir.

Medición del rendimiento de la respuesta ante incidentes

Es posible que esté familiarizado con el acrónimo TTR, que significa "tiempo de recuperación", "tiempo de corrección" o "tiempo de restauración". Todas estas variantes hacen referencia a lo mismo: la cantidad de tiempo total que se tarda en restaurar los servicios a una situación en la que puedan volver a cumplir las expectativas de los clientes.

Esta métrica es una manera de medir la calidad del rendimiento de los equipos al responder a los incidentes. Cuanto más rápido se recupere, se corrija o se restaure el servicio, menor será el impacto que tenga la interrupción o el servicio degradado.

Es importante conocer lo bien que controla la organización la respuesta ante incidentes. Todos los años, la organización DevOps Research and Assessment (DORA) publica un informe titulado Estado de DevOps. Algunos de los principales hallazgos del informe de 2019 se centran en el rendimiento de la respuesta ante incidentes.

  • El informe considera de "élite o rendimiento alto" los equipos de ingeniería que pueden detectar, responder y corregir las interrupciones del servicio en menos de una hora.
  • Los equipos que garantizan la recuperación ante incidentes en menos de 24 horas se consideran de "rendimiento medio".
  • Los equipos de "rendimiento bajo" son aquellos que tardan entre una semana y un mes en recuperarse de interrupciones del servicio.

La diferencia entre estos niveles es considerable. Según el estudio, los equipos de "élite o rendimiento alto" se recuperan de los incidentes 2604 veces más rápido que los de "rendimiento bajo". Los equipos de élite o rendimiento alto también implementan en producción 208 veces más a menudo.

¿Por qué y cómo los equipos de élite ofrecen una respuesta y una recuperación mucho más rápidamente que el resto? En parte, se debe a que comprenden la importancia de tener en marcha un buen plan de respuesta básico para cuando las cosas salen mal.

A medida que avance en este módulo, descubrirá las características y el ciclo de vida de un incidente y aprenderá a usar estos conocimientos para crear su propio plan básico.

Comprobar los conocimientos

1.

¿Cuál de los siguientes es un objetivo de una respuesta eficaz ante incidentes?

2.

Generalmente, ¿con cuánta rapidez detectan, responden y corrigen las interrupciones del servicio los equipos de ingeniería clasificados como de "élite o rendimiento alto"?