Bien démarrer avec l’ingénierie de fiabilité de site

Effectué

Dans la dernière unité de ce module, nous allons voir comment vous pouvez approfondir vos connaissances si vous souhaitez explorer l’ingénierie de fiabilité de site (SRE, Site Reliability Engineering) plus en détail.

Ouvrages et vidéos

Pour obtenir des informations plus détaillées sur SRE, la meilleure source est un trio de livres qui ont été publiés sur le sujet.

  1. Site Reliability Engineering: How Google Runs Production Systems (couramment appelé « The SRE Book »)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (couramment appelé « The SRE Workbook »)
  3. Seeking SRE: Conversations About Running Production Systems at Scale

(Soit dit en passant, l’auteur principal de ce module est l’éditeur du troisième ouvrage)

Chacun de ces ouvrage fournit un ensemble important d’informations :

  • The SRE Book : fournit une explication détaillée de la façon dont Google a implémenté l’ingénierie de fiabilité de site au fil des années.

  • The SRE Workbook : complément de l’ouvrage « The SRE Book » qui fournit une explication plus détaillée concernant l’ingénierie de fiabilité de site chez Google et quelques autres organisations, notamment le « comment » et le « pourquoi ».

  • Seeking SRE : fournit une vue plus étendue du monde de l’ingénierie de fiabilité de site au-delà de son origine, notamment des informations sur la façon dont elle a été implémentée dans d’autres environnements.

Veillez à lire ces trois ouvrages avec un œil critique. Tout leur contenu ne s’appliquera pas à vous et à votre organisation. Prenez le temps d’identifier les informations dont vous êtes certain qu’elles peuvent fournir une valeur positive. Réfléchissez aux parties de la culture et des valeurs de votre organisation susceptibles de prendre en charge le travail d’ingénierie de fiabilité de site décrit, et à celles susceptibles de le rendre plus difficile.

Si vous préférez, vous pouvez regarder la vidéo Keys to SRE de Ben Treynor lors de la conférence SREcon14. Treynor fournit une explication convaincante de ce qu’est l’ingénierie de fiabilité de site (du moins dans le contexte de Google). D’autres discussions concernant l’ingénierie de fiabilité de site enregistrées lors de cette série de conférences et d’autres conférences peuvent être également utiles.

Communiquer avec d’autres personnes intéressées

Même si la consultation d’ouvrages sur l’ingénierie de fiabilité de site est importante, il peut souvent être plus important d’en parler avec vos pairs. Discuter des défis, des succès et des échecs concernant SRE peut être essentiel pour acquérir une compréhension subtile du sujet.

Il existe un certain nombre de rencontres et de conférences qui traitent de SRE. Les plus pertinentes sont sans doute les conférences globales SREcon organisées par USENIX (avertissement : l’auteur principal de ce module est l’un des cofondateurs de SREcon).

De plus en plus de contenu SRE figure dans des conférences telles que Velocity, LISA et les conférences DevOps locales comme DevOps Days. N’hésitez pas à consulter ce contenu et d’autres traitant de ce sujet partout où vous pourrez en trouver.

Premières étapes de travail

Il est important de se rappeler que SRE n’est pas une proposition de type « tout ou rien ». Si vous souhaitez commencer à explorer comment intégrer SRE dans votre environnement, vous pouvez commencer à adopter les principes et les pratiques SRE par petites étapes.

Mikey Dickerson est un ingénieur SRE bien connu suite à son travail à ce qui est devenu plus tard United States Digital Service. Ils étaient chargés du sauvetage de healthcare.gov. Il a proposé une hiérarchie de fiabilité en hommage à la hiérarchie des besoins de Maslow. Elle est citée dans la section sur les pratiques du premier ouvrage sur SRE.

Cette hiérarchie stipule qu’il faut tout d’abord que la supervision dans votre environnement soit fonctionnelle et digne de confiance. La supervision doit également être un premier pas vers SRE pour votre environnement. Vous ne pouvez pas savoir si quelque chose est fiable (ou s’améliore ou empire) si vous ne pouvez pas le mesurer.

Une fois que vous avez une plateforme de supervision digne de confiance, l’étape accessible suivante consiste à choisir un service au travail, et à commencer à avoir des conversations sur les SLI (indicateurs de niveau de service) et les SLO (objectifs de niveau de service) à son sujet. Commencez doucement. Créez des SLI et des SLO, implémentez-les dans votre système de supervision et observez ce qui se passe quand vous commencez à prêter attention à la fiabilité à travers la lentille SRE. Ces étapes sont un excellent point de départ.