Principios y prácticas clave de la SRE: El lado humano de la SRE

Completado

Un proceso de operaciones correcto es aquel que logra la confiabilidad deseada y la mantiene. Este proceso depende tanto de cómo trate a las personas responsables de ese entorno como de cómo trate a las máquinas. La ingeniería de confiabilidad del sitio reconoce este realidad en numerosos aspectos fundamentales para su práctica.

Trabajo duro

El primero se centra en la noción de "trabajo duro". En un contexto de SRE, el trabajo duro hace referencia al trabajo de operaciones que realiza una persona que tiene determinadas características. No tienen valor compensatorio a largo plazo. No hacen avanzar el servicio de manera significativa. Suele ser repetitiva y en gran medida, manual (a pesar de que se podría automatizar). A medida que el servicio o los sistemas aumentan con el tiempo, la cantidad de solicitudes de ese sistema también aumentará probablemente de manera proporcional y requerirá incluso un mayor trabajo manual.

Por ejemplo, un servicio puede requerir que el equipo de SRE incurra en cargas operativas como estas que se consideran de trabajo:

  • Restablecer algo cada semana.
  • Aprovisionar nuevas cuentas y espacio en disco manualmente.
  • Reiniciar repetidamente un proceso a mano.

Completar esas acciones no mejora el servicio de ninguna manera constante ni a largo plazo. También es probable que estas acciones deban repetirse una y otra vez.

Nota:

Incluso si mantiene esta clase de solicitudes en algún tipo de sistema de vales, igual que hacen en muchos lugares, realizar la acción y resolver un vale sigue siendo trabajo duro. Simplemente se trata de trabajo duro con un buen seguimiento.

A los SRE no les gustan las tareas tediosas. Trabajan para eliminarlas siempre que sea posible y adecuado. Este objetivo es uno de los lugares en los que se aplica la automatización en SRE. Si estas solicitudes se pueden administrar de forma automática, el equipo queda libre para trabajar en cosas más gratificantes e impactantes que vaciar la cola de solicitudes.

El uso de la palabra "adecuado" en relación con el trabajo es similar a su uso en torno a la confiabilidad. Hay situaciones en las que la eliminación del trabajo duro tiene una prioridad menor que otro trabajo, pero, en general, la eliminación del trabajo duro de un servicio es un factor clave para una SRE.

Trabajo de proyecto frente a trabajo de operaciones reactivo

Para realizar las tareas necesarias para quitar el trabajo duro o mejorar la confiabilidad de un sistema, el tiempo de una SRE debe asignarse correctamente. Quieren asegurarse de que no gastan todo su tiempo de la lucha contra incendios en responder a páginas o simplemente procesar una cola de incidencias. Deben tener tiempo reservado para escribir código a fin de eliminar el trabajo duro, construir automatización de autoservicio para que no hagan falta los vales y compilar proyectos que hagan que el servicio y las personas sean más eficaces. La cifra que se suele citar (que proviene el modelo original de Google) no es más del 50 % de la carga operativa en un equipo.

Nota:

El 50 % es un porcentaje un tanto arbitrario, pero en la práctica parece funcionar como un objetivo razonable para muchas personas.

Hay momentos en la vida de un SRE en los que dedica todo su tiempo a apagar fuegos, pero ese no puede ser un estado constante. Si el trabajo en operaciones reactivas de un equipo (gran parte de él considerado trabajo duro) ocupa más del 50 % de su tiempo durante un período prolongado, está destinado a agotarse y conseguir una confiabilidad pobre. En esta situación, los ciclos virtuosos que analizamos anteriormente no pueden funcionar ni crearse. Del mismo modo, la SRE presta atención a una carga de turno mal equilibrada porque tiene también el potencial de afectar negativamente al equipo.

Ahora que hemos tenido la oportunidad de ver algunos de los principios y procedimientos fundamentales del SRE, vamos a hablar un poco sobre cómo empezar.

Comprobación de conocimientos

1.

¿Cuál de estas no es una característica del trabajo duro ("toil") (en el contexto de la SRE)?

2.

¿Qué es una relación de la SRE con el trabajo duro?

3.

¿Cuál sería un desglose de trabajo sugerido para un miembro de la SRE?