Wprowadzenie do usługi SRE

Ukończone

W ramach końcowej lekcji w tym module pomówmy o tym, co robić dalej, jeśli interesujesz się zgłębianiem inżynierii SRE.

Czytanie i oglądanie

Aby uzyskać szczegółowe informacje o inżynierii SRE, najlepszym źródłem będą trzy opublikowane książki w tym temacie

  1. Site Reliability Engineering: How Google Runs Production Systems („Site Reliability Engineering. Jak Google zarządza systemami produkcyjnymi”, znana jako „podręcznik SRE”)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE („Ćwiczenia z niezawodności lokacji: praktyczne sposoby wdrażania SRE”, znana jako „zeszyt ćwiczeń z SRE”)
  3. Seeking SRE: Conversations About Running Production Systems at Scale (W poszukiwaniu SRE: rozmowy o uruchamianiu systemów produkcyjnych w dużej skali)

(Wyjaśnienie: główny autor tego modułu jest również opiekunem/redaktorem trzeciej książki)

Każda z tych książek zapewnia ważny zestaw informacji:

  • Książka SRE: zawiera szczegółowe wyjaśnienie, w jaki sposób firma Google wdrożyła SRE na przestrzeni lat.

  • Skoroszyt SRE: towarzysz książki SRE, która zawiera bardziej szczegółowe wyjaśnienie nie tylko "co" SRE w Google i kilka innych miejsc, ale "jak" i "dlaczego".

  • Szukanie SRE: zapewnia bardziej ekspansywny widok świata SRE poza jego pochodzenie, w tym informacje na temat sposobu implementacji w innych środowiskach.

Pamiętaj, aby przeczytać wszystkie trzy książki z krytycznym podejściem. Nie wszystko napisane w tych książkach może dotyczyć Ciebie i Twojej organizacji. Pośmiń trochę czasu, aby zidentyfikować pewne informacje, które mogą zapewnić pewną wartość dodatnią. Pomyśl o tym, które części kultury i wartości w organizacji mogą wspierać inżynierię SRE zgodnie z opisem, a które mogą stanowić większe wyzwanie.

Jeśli okaże się, że jesteś bardziej osobą wizualną, spróbuj obejrzeć talk Keys to SRE by Ben Treynor na konferencji SREcon14. Treynor zawiera cogent wyjaśnienie, czym jest inżynieria SRE (przynajmniej w kontekście Google). Inne nagrane rozmowy na temat SRE z tej serii konferencji i inne mogą być również przydatne.

Porozmawiaj z innymi zainteresowanymi osobami

Równie ważne jak czytanie o inżynierii SRE może być porozmawianie o tym rozwiązaniu ze współpracownikami. Dyskusja na temat wyzwań, sukcesów i niepowodzeń związanych z inżynierią SRE może mieć kluczowe znaczenie dla uzyskania zniuansowanego zrozumienia tematu.

Istnieje wiele spotkań i konferencji, które zawierają zawartość SRE. Prawdopodobnie najistotniejsze są odbywające się na całym świecie konferencje SREcon organizowane przez stowarzyszenie USENIX (wyjaśnienie: główny autor tego modułu jest jednym ze współtwórców SREcon).

Jeszcze więcej zawartości SRE umożliwia konferencje, takie jak Velocity, LISA i lokalne konferencje DevOps, takie jak DevOps Days. Szukaj tych treści i innych osób zainteresowanych tematem wszędzie tam, gdzie możesz je znaleźć.

Pierwsze kroki w pracy

Ważne jest, aby pamiętać, że SRE nie jest propozycją "wszystkiego lub nic". Jeśli chcesz rozpocząć eksplorowanie sposobu wprowadzenia inżynierii SRE do środowiska, możesz rozpocząć wdrażanie zasad i praktyk inżynierii SRE w małych krokach.

Mikey Dickerson jest dobrze znanym SRE w oparciu o swoją pracę w tym, co stałoby się Stany Zjednoczone Digital Service. Byli odpowiedzialni za zapisywanie healthcare.gov. Zaproponował hierarchię niezawodności w hołdze hierarchii potrzeb Maslowa. Jest cytowany w sekcji Praktyki pierwszej książki SRE.

Ta hierarchia proponuje, aby najpierw uzyskać funkcjonalne i godne zaufania monitorowanie w środowisku. Monitorowanie musi być również pierwszym krokiem w kierunku SRE dla środowiska. Nie można powiedzieć, czy coś jest niezawodne (lub czy poprawia/pogarsza się), jeśli nie można tego zmierzyć.

Po utworzeniu platformy monitorowania możesz zaufać, następnym dostępnym krokiem jest wybranie usługi w pracy. Następnie zacznij prowadzić rozmowy SLI i SLO na ten temat. Rozpocznij od czegoś prostego. Utwórz wskaźniki SLA i cele SLO dla usługi, zaimplementuj je w systemie monitorowania i zobacz, co się dzieje, gdy zaczniesz zwracać uwagę na niezawodność przy użyciu obiektywu SRE. Te kroki są doskonałym miejscem do rozpoczęcia.