Začínáme se SRE

Dokončeno

V závěrečné jednotce tohoto modulu si povíme o tom, kam dál, pokud vás zajímá další objevování SRE.

Čtení a sledování

Nejlepším zdrojem podrobných informací o SRE je trojice knih, vydaných na toto téma

  1. Site Reliability Engineering: How Google Runs Production Systems (Site Reliability Engineering: Jak Google provozuje produkční systémy, známý také jako „The SRE Book“)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (Pracovní sešit SRE: Praktické způsoby implementace SRE, známá také jako „The SRE Workbook“)
  3. Seeking SRE: Conversations About Running Production Systems at Scale (Hledání SRE: Rozhovory o provozování produkčních systémů ve velkém)

(Upozornění: Hlavní autor tohoto modulu je zároveň editorem třetí knihy.)

Každá z těchto knih přináší důležitou sadu informací:

  • SRE Book podrobně vysvětluje, jak společnost Google v průběhu let implementovala SRE.

  • SRE Workbook jako doplněk SRE Book poskytuje podrobnější odpovědi nejen na otázku „Co?“ ohledně SRE v Googlu a na několika dalších pracovištích, ale i na otázky „Jak?“ a „Proč?“.

  • Hledání SRE nabízí hlubší pohled do světa SRE, včetně informací o tom, jak bylo implementováno do jiných prostředí.

Nezapomeňte ke všem třem knihám přistupovat kriticky a s odstupem. Ne všechno napsané v těchto knihách se může vztahovat na vás a vaši organizaci. Nějakou dobu zajistěte, abyste identifikovali informace, které jste si jisti, můžou poskytnout určitou kladnou hodnotu. Zamyslete se, která část vaší firemní kultury a hodnot již v zásadě je v souladu s činnostmi SRE tak, jak jsme je popsali, a v jakých oblastech by byla implementace náročnější.

Pokud zjistíte, že jste více vizuální osoba, zkuste sledovat talk Keys to SRE ben Treynor na konferenci SREcon14. Treynor poskytuje vysvětlení toho, co je SRE (alespoň v kontextu Google). Další zaznamenané přednášky o SRE z této série konferencí a další mohou být užitečné.

Komunikujte s ostatními zainteresovanými lidmi

Jakkoli je čtení o SRE důležité, diskuze s kolegy na toto téma může být často mnohem přínosnější. Když budete diskutovat o svých výzvách, úspěchu a selháních kolem SRE, může být zásadní pro získání nuancí porozumění tématu.

Existuje mnoho meetupů a konferencí, které obsahují obsah SRE. Asi nejvíce k tématu jsou konference SREcon pořádané společností USENIX (prohlášení: Hlavní autor tohoto modulu je jedním ze spoluzakladatelů konferencí SREcon).

Ještě více obsahu SRE vytváří cestu ke konferencím, jako je Velocity, LISA a místní konference DevOps, jako je DevOps Days. Hledejte SRE a ty, kteří se jím zabývají, kdekoli jen můžete.

První kroky v práci

Je důležité si uvědomit, že SRE není "vše nebo nic". Pokud chcete začít zkoumat, jak přenést SRE do vašeho prostředí, můžete začít používat principy a postupy SRE v malých krocích.

Mikey Dickerson, je dobře známý SRE založený na jeho práci na tom, co by se stalo USA Digitální služba. Byli zodpovědní za záchranu healthcare.gov. Navrhl hierarchii spolehlivosti v maslowské hierarchii potřeb. Uvádí se v části Postupy první knihy SRE.

Tato hierarchie navrhuje, abyste nejprve získali funkční a důvěryhodné monitorování ve vašem prostředí. Monitorování musí být prvním krokem k SRE i pro vaše prostředí. Nemůžete říct, jestli je něco spolehlivé (jestli se to zlepšuje nebo zhoršuje), když to nedokážete změřit.

Jakmile máte monitorovací platformu, které můžete důvěřovat, dalším dostupným krokem je vybrat službu v práci. Pak o tom začněte komunikovat SLI a SLO. Začněte jednoduše. Vytvořte pro ni ukazatele SLI a cíle SLO, implementujte je do monitorovacího systému a pozorujte, co se stane, když začnete sledovat spolehlivost optikou SRE. Tento postup je skvělým místem, kde začít.