Libros de ingeniería de fiabilidad de sitios (SRE)
Una de las mejores formas de aprender o profundizar en sus conocimientos de SRE es leer documentación relacionada. Estas son algunas de las fuentes de información mejor escritas que hemos visto sobre el tema.
Libros principales de SRE
Para obtener información más detallada sobre ingeniería de confiabilidad de sitios (SRE), la mejor fuente es un trío de libros que se han publicado sobre el asunto
- Site Reliability Engineering: How Google Runs Production Systems (Ingeniería de confiabilidad de sitios: cómo ejecuta Google los sistemas de producción)
- The Site Reliability Workbook: Practical Ways to Implement SRE (El libro de la confiabilidad de sitios: métodos prácticos para implementar la SRE)
- Seeking SRE: Conversations About Running Production Systems at Scale (Buscar la SRE: conversaciones sobre la ejecución de sistemas de producción a escala)
Cada uno de estos libros ofrece información importante:
En el primer libro se da una explicación detallada de cómo Google implementó la SRE a lo largo de los años.
En el segundo libro, complemento del primero que brinda una explicación más detallada de no solo el "qué" de la SRE en Google y de otros lugares, sino también del "cómo" y el "por qué".
En el tercer y último libro se aporta una vista más amplia del mundo de la SRE más allá de su origen: incluye información sobre cómo se ha implementado en otros entornos.
Dado que estos libros describen la experiencia, los entornos y la cultura de organizaciones que pueden, o no, ser similares a la suya, es importante que los lea con una mirada crítica. A medida que avance en su lectura, intente determinar qué prácticas servirían, o no, para su organización. Tómese tiempo para identificar la información que, con seguridad, puede aportarle algo positivo. Piense en qué partes de la cultura y los valores de su organización pueden adoptar el trabajo de la SRE tal y como se describe y qué partes podrían hacerlo más difícil. Una adopción cuidadosa e iterativa de SRE casi siempre producirá mejores resultados que una duplicación a nivel global de cualquiera aspecto que haya leído en estos libros.
Libros adicionales de SRE
Después de leer los libros mencionados anteriormente, si desea profundizar en la práctica de los indicadores de nivel de servicio (SLI)/Objetivos de nivel de servicio (SLO), el siguiente libro es un recurso excelente:
Implementing Service Level Objectives (Implementación de objetivos de nivel de servicio)
Si desea explorar la intersección de la ingeniería de seguridad y fiabilidad, este libro proporciona una gran variedad de observaciones adecuadas sobre el tema:
Building Secure and Reliable Systems (Creación de sistemas seguros y fiables)