Introducción a la SRE

Completado

Como unidad final de este módulo, veremos a dónde ir desde aquí si le interesa explorar la SRE.

Lecturas y contenidos multimedia

Para obtener más información detallada sobre la SRE, la mejor fuente son tres libros que se han publicado sobre este tema.

  1. Site Reliability Engineering: How Google Runs Production Systems (Ingeniería de confiabilidad de sitios: cómo ejecuta Google los sistemas de producción)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (El libro de la confiabilidad de sitios: métodos prácticos para implementar la SRE)
  3. Seeking SRE: Conversations About Running Production Systems at Scale (Buscar la SRE: conversaciones sobre la ejecución de sistemas de producción a escala)

Una pequeña revelación: el autor principal de este módulo es el responsable de contenidos/editor del tercer libro.

Cada uno de estos libros ofrece información importante:

  • En el primer libro se da una explicación detallada de cómo Google implementó la SRE a lo largo de los años.

  • En el segundo libro, complemento del primero que brinda una explicación más detallada de no solo el "qué" de la SRE en Google y de otros lugares, sino también del "cómo" y el "por qué".

  • En el tercer y último libro se aporta una vista más amplia del mundo de la SRE más allá de su origen: incluye información sobre cómo se ha implementado en otros entornos.

Lea los tres libros con un sentido crítico. No todo lo que está escrito en estos libros se le aplicará a usted y a su organización. Tómese tiempo para identificar la información que, con seguridad, puede aportarle algo positivo. Piense en qué partes de la cultura y los valores de su organización pueden adoptar el trabajo de la SRE tal y como se describe y qué partes podrían hacerlo más difícil.

Si le gusta más el contenido visual, vea la charla Claves de la SRE de Ben Treynor en la conferencia SREcon14. Treynor da una explicación convincente de lo que es la SRE (al menos en el contexto de Google). También le pueden resultar útiles otras charlas grabadas sobre la SRE de esta serie de conferencias, entre otras.

Hable con otras personas interesadas

Tan importante como es investigar la SRE, a veces puede resultar más importante hablar de ello con sus compañeros. Hablar de los retos, éxitos y errores en torno a la SRE puede ser esencial para comprender el tema más en profundidad.

Hay numerosas reuniones y conferencias que presentan contenido relacionado con la SRE. Quizás las más relevantes son las conferencias SREcon, distribuidas mundialmente, presentadas por USENIX (revelación: el autor principal de este módulo es uno de los cofundadores de SREcon).

Se añade incluso más contenido relativo a la SRE a conferencias como Velocity, LISA y conferencias locales sobre DevOps como DevOps Days. Busque este contenido y a otras personas interesadas en el tema en cualquier sitio que pueda.

Primeros pasos en el trabajo

Es importante recordar que la SRE no es una propuesta de "todo o nada". Si desea empezar a explorar cómo incorporar la SRE a su entorno, puede empezar a adoptar los principios y procedimientos de la SRE poco a poco.

Mikey Dickerson es un conocido ingeniero de SRE que basó su trabajo en lo que se convertiría en United States Digital Service. Fueron los responsables de salvar healthcare.gov. Ha propuesto una jerarquía de confiabilidad en homenaje a la jerarquía de necesidades de Maslow. Aparece en la sección Practices del primer libro de la SRE.

Esta jerarquía sugiere que primero se debe obtener una supervisión funcional y de confianza en el entorno. La supervisión también tiene que ser el primer paso hacia la SRE en el entorno. No puede saber si algo es confiable (o si mejora o empeora) si no lo puede medir.

Cuando tenga una plataforma de supervisión en la que pueda confiar, el siguiente paso accesible consiste en elegir un servicio del trabajo. A continuación, empezarán las conversaciones de SLI y SLO sobre ella. Empiece por algo simple. Cree SLI y SLO para el servicio, impleméntelos en su sistema de supervisión y vea qué sucede cuando comienza a prestar atención a la confiabilidad desde la perspectiva de la SRE. Estos pasos son un buen comienzo.