Komma igång med SRE

Slutförd

Som en sista enhet i den här modulen ska vi prata om hur du går vidare om du vill utforska SRE.

Läsa och titta

Den bästa källan för mer detaljerad information om SRE är tre böcker som har publicerats om ämnet

  1. Site Reliability Engineering: How Google Runs Production Systems (kallas för ”SRE-boken”)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (kallas ”SRE-arbetsboken”)
  3. Seeking SRE: Conversations About Running Production Systems at Scale

(Som en snabb upplysning är den primära författaren till den här modulen kurator/redaktör för den tredje boken)

Var och en av dessa böcker innehåller en viktig uppsättning information:

  • SRE-boken – ger en detaljerad förklaring av hur Google implementerat SRE under åren.

  • SRE-arbetsboken – en följeslagare till SRE-boken som ger en mer detaljerad förklaring av inte bara ”vad” för SRE på Google och några andra platser, utan även ”hur” och ”varför”.

  • Seeking SRE – ger en mer omfattande vy över SRE-världen utöver dess ursprung, som information om hur den har implementerats i andra miljöer.

Läs de tre böckerna kritiskt. Allt som skrivs i dessa böcker kan inte gälla dig och din organisation. Ta dig tid att identifiera den information som du är säker på kan ge ett visst positivt värde. Tänk på vilka delar av din organisations kultur och värden som kan ge stöd för SRE-arbete enligt beskrivningen och som kan göra det mer utmanande.

Om du upptäcker att du är mer av en visuell person kan du prova att titta på samtalet Nycklar till SRE av Ben Treynor på SREcon14-konferensen. Treynor ger en övertygande förklaring av vad SRE (åtminstone i Google-kontexten) är. Andra inspelade samtal om SRE från denna konferensserie och andra kan också vara användbara.

Prata med andra berörda personer

Det kan ofta vara viktigare att diskutera med kollegor än att läsa på om SRE. Att ha en diskussion om dina utmaningar, framgångar och misslyckanden kring SRE kan vara avgörande för att få en nyanserad förståelse av ämnet.

Det finns många möten och konferenser med SRE-innehåll. Den som är mest direkt relevant är kanske de globalt distribuerade SREcon-konferenserna på USENIX (friskrivning: modulens primära författare är en av grundarna av SREcon).

Ännu mer SRE-innehåll tar sig till konferenser som Velocity, LISA och lokala DevOps-konferenser som DevOps Days. Sök upp det här innehållet och annat intressant där du hittar det.

De första spadtagen

Det är viktigt att komma ihåg att SRE inte är ett "allt eller inget"-förslag. Om du vill börja utforska hur du för in SRE i din miljö kan du börja använda SRE-principer och -metoder i små steg.

Mikey Dickerson, är en välkänd SRE baserat på hans arbete på vad som skulle bli USA Digital Service. De var ansvariga för att spara healthcare.gov. Han har föreslagit en hierarki av tillförlitlighet som en hyllning till Maslows hierarki av behov. Den citeras i avsnittet Praxis i den första SRE-boken.

Den här hierarkin föreslår att du först måste få funktionell och tillförlitlig övervakning i din miljö. Övervakning måste vara ett första steg mot SRE för din miljö också. Du kan inte avgöra om något är tillförlitligt (eller blir bättre eller sämre) om du inte kan mäta det.

När du har en övervakningsplattform som du kan lita på är nästa steg att välja en tjänst på jobbet. Börja sedan ha SLI- och SLO-konversationer om det. Börja enkelt. Skapa servicenivåindikatorer (SLI) och servicenivåmål (SLO) för tjänsten, implementera dem i dina övervakningssystem och se vad som händer när du börjar uppmärksamma tillförlitlighet med SRE. De här stegen är ett bra ställe att börja på.