Aan de slag met SRE

Voltooid

Als laatste eenheid in deze module, vertellen we welke wegen u kunt bewandelen als u SRE verder wilt verkennen.

Lezen en kijken

Een goede bron voor meer gedetailleerde informatie over SRE is een drietal boeken dat over dit onderwerp is gepubliceerd:

  1. Site Reliability Engineering: How Google Runs Production Systems (ook wel bekend als 'The SRE Book')
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (ook wel bekend als 'The SRE Workbook')
  3. Seeking SRE: Conversations About Running Production Systems at Scale

(De primaire auteur van deze module is overigens ook de samensteller/redacteur van het derde boek.)

Elk van deze boeken bevat belangrijke informatie:

  • In The SRE Book wordt gedetailleerd uitgelegd hoe Google SRE in de loop van de jaren heeft geïmplementeerd.

  • The SRE Workbook is een aanvulling op The SRE Book waarin niet alleen gedetailleerder wordt ingegaan op de wat-vraag met betrekking tot SRE bij Google en een paar andere plaatsen, maar ook op het hoe en waarom.

  • Seeking SRE biedt een ruime blik op de SRE-wereld die verder gaat dan de oorsprong. In dit boek wordt onder meer uitgelegd hoe SRE is geïmplementeerd in andere omgevingen.

Lees de drie boeken met een kritisch oog. Niet alles wat in deze boeken is geschreven, kan van toepassing zijn op u en uw organisatie. Neem even de tijd om de informatie te identificeren die u zeker weet, een positieve waarde kan bieden. Bedenk welke onderdelen van de cultuur en waarden van uw organisatie SRE-werkzaamheden kunnen ondersteunen zoals wordt beschreven en welke onderdelen een grotere uitdaging vormen.

Als u merkt dat u meer visueel bent, bekijkt u de talk Keys to SRE van Ben Treynor op de SREcon14-conferentie. Treynor biedt een cogente uitleg van wat SRE (in ieder geval in de Google-context) is. Andere opgenomen gesprekken over SRE uit deze conferentiereeks en andere kunnen ook nuttig zijn.

Praat met andere geïnteresseerde personen

Hoewel het belangrijk is om u in te lezen over SRE, is het vaak nog belangrijker om het onderwerp met collega's te bespreken. Als u een discussie hebt over uw uitdagingen, kunnen successen en mislukkingen rond SRE cruciaal zijn om een genuanceerd begrip van het onderwerp te krijgen.

Er zijn veel meetups en conferenties met SRE-inhoud. Het meest relevant zijn misschien de wereldwijd gedistribueerde SREcon-conferenties die worden georganiseerd door USENIX (disclaimer: de primaire auteur van deze module is een van de medeoprichters van SREcon).

Nog meer SRE-inhoud maakt zijn weg naar conferenties zoals Velocity, LISA en lokale DevOps-conferenties zoals DevOps Days. Zoek deze inhoud en anderen die geïnteresseerd zijn in het onderwerp, waar u maar kunt.

Eerste stappen op het werk

Het is belangrijk om te onthouden dat SRE geen 'alles of niets'-voorstel is. Als u wilt beginnen met het verkennen van hoe u SRE in uw omgeving brengt, kunt u in kleine stappen beginnen met het aannemen van SRE-principes en -procedures.

Mikey Dickerson, is een bekende SRE op basis van zijn werk in wat de Verenigde Staten Digital Service zou worden. Ze waren verantwoordelijk voor het redden van healthcare.gov. Hij heeft een betrouwbaarheidshiërarchie voorgesteld in de hiërarchie van Maslow. Het wordt vermeld in de sectie Practices van het eerste SRE-boek.

Deze hiërarchie stelt voor dat u eerst functionele en betrouwbare bewaking in uw omgeving moet krijgen. Bewaking moet ook een eerste stap zijn in de richting van SRE voor uw omgeving. U weet niet of iets betrouwbaar is (of beter of slechter wordt) als u de betrouwbaarheid niet kunt meten.

Zodra u een bewakingsplatform hebt dat u kunt vertrouwen, is de volgende bereikbaar stap het kiezen van een service op het werk. Begin vervolgens SLI- en SLO-gesprekken te voeren. Begin eenvoudig. Maak SLI's en SLO's voor de service, implementeer ze in uw bewakingssysteem en kijk wat er gebeurt wanneer u de betrouwbaarheid met de SRE-lens onder de loep neemt. Deze stappen zijn een geweldige plek om te beginnen.