Fundamentos de la respuesta ante incidentes

Completado

Hoy en día, las organizaciones se benefician de la accesibilidad, la eficacia y la comodidad de la nube, pero se enfrentan a numerosos desafíos, ya que se someten a una transformación digital que implica trasladar ciertas partes del negocio a los servicios en la nube.

Algunos de los retos más comunes que puede afrontar una organización son los siguientes:

  • Aumento del número de interrupciones del servicio
  • Inexistencia de un método efectivo para el seguimiento y la respuesta ante incidentes (todo es ad hoc y reaccional)
  • Tiempo de resolución inaceptable
  • Tiempo de resolución que no mejora o empeora
  • Información y estado difíciles de encontrar
  • Repetición de los mismos problemas y errores

Para enfrentarse a estos desafíos, necesita un plan de respuesta ante incidentes bien definido y fundamentado en una base sólida.

Fundamentos y pilares

El propósito de unos buenos fundamentos consiste en sustentar la estructura que reposa encima. En un módulo de introducción independiente de esta ruta de aprendizaje, expusimos que un trabajo confiable se asienta sobre el nivel básico de supervisión y que la respuesta ante incidentes se sitúa justo sobre este en la jerarquía.

La respuesta ante incidentes también tiene sus propios fundamentos. Hay tres pilares que admiten un buen plan de respuesta a incidentes:

  • Listas de turnos
  • Roles
  • Rotaciones

En esta unidad, descubrirá en qué consiste cada uno de estos pilares y qué papel desempeñan en el diseño de una estrategia de respuesta ante incidentes que le permita avanzar en el camino hacia los objetivos de confiabilidad que se haya impuesto.

Listas de turnos

Es esencial tener un buen plan, pero no tiene ninguna utilidad sin personas que lo ejecuten. Por eso, lo mejor es empezar por determinar quién debe responder a los problemas y cómo hacerle saber cuándo se necesita su respuesta.

La mejor manera de abordar este desafío es diseñar una lista de turnos. Una lista de turnos es aquella que recoge a las personas asignadas al equipo de guardia. Este equipo debe estar formado por varios ingenieros. Los miembros del equipo deben tener los conocimientos y las habilidades necesarios para abordar el tipo de problemas que pueden producirse en el entorno, así como estar entrenados en la respuesta ante incidentes.

Aun así, no llega con tener solo una lista de nombres. Es necesario establecer un marco en torno a quién está de guardia en un momento dado y qué debe hacer cada persona. Aquí es donde entran en juego los roles.

Roles

Los roles imponen un orden en lo que podría ser una respuesta caótica o, en el mejor de los casos, ad hoc. Para ello, definen las funciones específicas que asumirá cada persona en una situación determinada y el lugar que ocupan en la "cadena de mando". Los roles pueden variar de una organización a otra o incluso por tipo de incidente, pero, en general, los que se indican a continuación deben formar parte de un equipo organizado de respuesta ante incidentes:

  • Respondedor principal: Esta es la "persona de referencia" que suele acudir al lugar la primera, es decir, el primer ingeniero de guardia al que se llama cuando se produce un incidente.
  • Respondedor secundario: Se trata de una persona que actúa como apoyo y puede intervenir en caso de que el respondedor principal no esté disponible o si se necesita una segunda opinión.
  • Expertos en la materia (SME): Son personas que tienen conocimientos detallados sobre una faceta determinada de las operaciones. Se puede contar con ellos si los respondedores principal y secundario necesitan remitir el problema a alguien con más experiencia. No se encuentran de guardia en el momento, pero están disponibles si se necesitan sus conocimientos especializados. Conviene disponer de una lista de expertos en varios asuntos (por ejemplo, bases de datos, front-end, infraestructura de red, aplicaciones web, ciberseguridad, etc.).
  • Jefe de incidentes: Se trata de un rol importante si se produce un incidente o una interrupción a gran escala que afecta a muchos componentes diferentes o que requiere una coordinación entre varios equipos y sistemas. El jefe de incidentes es la persona que coordina las conversaciones y los esfuerzos en el marco de las actividades de respuesta y corrección. El jefe de incidentes está atento al "panorama general" y lleva la cuenta de lo que ocurre y de quién hace cada cosa. Este rol es excelente para asegurarse de que los ingenieros estén centrados y trabajen en sus propios esfuerzos de corrección, sin entorpecer ni anular el trabajo de los demás.
  • Escriba: El rol de escriba consiste en documentar la conversación sobre el incidente con la mayor cantidad de detalles posible. Normalmente, los equipos usan puentes telefónicos, teleconferencias o videollamadas para reunir a todo el mundo e intentar comprender qué sucede, lo que puede ayudar a crear espacio para la conversación. Es difícil analizar y entender en detalle lo que los ingenieros dicen y hacen, a menos que se transcriba. Por esta razón, el escriba ayuda a documentar tanta información como sea posible para revisarla más adelante. El escriba captura todos los datos posibles, no solo lo que hacen los miembros del equipo, sino también lo que dicen e incluso lo que sienten.
  • Coordinador de comunicaciones: Podría decirse que esta persona es el "administrador de relaciones públicas" del incidente. El coordinador de comunicaciones trabaja codo con codo con el jefe de incidentes para compartir información sobre el incidente con aquellos que no trabajan activamente en abordarlo y solucionarlo. Esto puede incluir clientes, equipos de ventas y marketing, miembros del departamento de asistencia al cliente y otras partes interesadas de dentro o fuera de la organización que necesitan conocer lo que sucede y el estado del progreso de la respuesta y la corrección.

Rotaciones

Una vez que tenga la lista de turnos del personal que integra el equipo de respuesta y que haya asignado los roles adecuados, el siguiente y último paso consiste en crear una rotación, que es una programación que asigna los turnos a cada persona de guardia.

Hay muchas maneras diferentes de dividir los turnos. La programación de los turnos puede ser un proceso estratégico complejo. Los turnos no se deben asignar aleatoriamente; conviene dedicar cierta planificación para que sean tan eficaces (y agradables para los miembros del equipo) como sea posible.

Estos son algunos de los métodos para programar turnos:

  • 24 x 7: Se trata de una rotación en la que los miembros del equipo están de guardia varios días seguidos. Es una manera sencilla de asignar la cobertura de los turnos, pero debe tener cuidado y limitar la duración. Las rotaciones de turnos de más de tres o cuatro días pueden ser perjudiciales para la salud general del personal de ingeniería, lo que reduce la confiabilidad de todo el sistema.
  • Turnos según la zona horaria: Se trata de un modelo según el cual los ingenieros programan los turnos de las guardias solo durante las horas de trabajo normales y, después, delegan sus responsabilidades al final de la jornada laboral a un compañero ubicado en una zona horaria diferente.

Estos son solo algunos ejemplos de las formas en que se pueden asignar los turnos. Lo importante es organizarlos de la forma que funcione mejor para los miembros del equipo de respuesta. Hay muchas maneras de adaptar los turnos, especialmente durante los fines de semana, cuando los ingenieros necesitan más flexibilidad. Los ingenieros deben poder delegar fácilmente el rol a otra persona cuando surjan conflictos no relacionados con el trabajo.

Comprobación de conocimientos

1.

¿Cuál de las siguientes opciones es un pilar de respuesta ante incidentes?

2.

¿Qué hace el rol de escriba como parte de la respuesta a incidentes?

3.

¿Se necesitan todos los roles que se mencionan en esta unidad para poner en marcha una respuesta ante incidentes correcta?