Wat is SRE en waarom is het belangrijk?

Voltooid

De beste plek om te beginnen is vaak het begin. Laten we eerst alleen de basisvraag stellen: 'Wat is Site Reliability Engineering?' Er zijn veel antwoorden op deze vraag, waaronder de vraag die vaak wordt genoemd door de persoon die de term bedacht (Ben Treynor Sloss bij Google), maar het meest praktische antwoord dat we kunnen bieden is:

Site Reliability Engineering is een engineeringsdiscipline die zich richt op het helpen van organisaties om duurzaam de juiste mate van betrouwbaarheid in hun systemen, services en producten te realiseren.

Later gaan we op enkele andere definities in, maar we nemen dit als uitgangspunt. Er zijn drie cruciale onderdelen van deze definitie die we moeten uitpakken die ons rechtstreeks naar de "Waarom maakt het uit?" .

Betrouwbaarheid

De kern (en in het midden van de naam 'SRE') is het woord 'betrouwbaarheid'. De definitie heeft het niet over 'het juiste niveau van prestaties' of 'het juiste niveau van efficiëntie' of 'het juiste niveau van stabiliteit' of 'het realiseren van het juiste niveau van inkomsten'. De definitie zegt 'het juiste niveau van betrouwbaarheid'. Waarom?

We bekijken een korte demonstratie. Hier volgt een schermafbeelding. Wat denk je dat het wordt weergegeven? Probeer om niet door te gaan totdat u een idee hebt of u het opgeeft. Opmerking: als het moeilijk is om zeer veel details in deze afbeelding te detecteren die prima is, wordt deze perfect weergegeven in uw browser.

A blank screenshot representing a PHP app that fails to load.

Deze afbeelding is een schermafbeelding van hoe een PHP-app (zonder andere ondersteuning voor foutopsporing toegevoegd) eruit ziet als deze mislukt. Voor een Java-app ziet u iets als dit:

A screenshot of failed java app with HTTPS Status 500 error.

Waarom bekijken we deze voorbeelden? Elk van deze voorbeelden vertegenwoordigt een toepassing die een bedrijf mogelijk enorme hoeveelheden tijd, energie en resources heeft gekost om te maken. Maar als de toepassing niet werkt, als deze niet operationeel is wanneer een klant de toepassing nodig heeft, - als deze niet betrouwbaar is - is dit voor niemand goed, met name niet voor het bedrijf. Een gebrek aan betrouwbaarheid kan in feite werkelijke schade (reputatie, economisch, contractueel, moreel, enzovoort) veroorzaken voor een bedrijf.

Dit belang is waarom SRE ervoor kiest om zich te richten op betrouwbaarheid als een fundamentele eigenschap, misschien de fundamentele eigenschap van de service, het systeem of het product. Betrouwbaarheid kan veel dingen omvatten (zoals we later bespreken), maar laten we verdergaan met het tweede cruciale onderdeel van de definitie.

Het juiste niveau van betrouwbaarheid

U hebt het mogelijk de eerste keer dat u de definitie las niet opgemerkt, maar we gaan nu in op een ander belangrijk woord:

Site Reliability Engineering is een engineeringsdiscipline die zich richt op het helpen van organisaties om duurzaam de juiste mate van betrouwbaarheid in hun systemen, services en producten te realiseren.

Waarom is dat woord zo belangrijk?

Een belangrijke observatie in de SRE-wereld is dat er weinig systemen en services zijn die 100% betrouwbaar moeten zijn. Kwesties van leven en dood zoals luchtvaart, medische apparaten, enzovoort vormen een belangrijke uitzondering.

In feite zijn er weinig situaties waarin het zelfs wenselijk is. De inspanningen en resources (en dus de kosten) die nodig zijn voor een grotere betrouwbaarheid stijgen enorm in prijs naarmate om meer betrouwbaarheid wordt gevraagd. Een andere manier, achtervolgen na betrouwbaarheid die u niet nodig hebt, is een verspilling van tijd en geld. U wilt u het juiste niveau van betrouwbaarheid bereiken in uw systeem, services en producten.

Het niveau moet overeenkomen met de behoeften van uw bedrijf en pragmatisch zijn. Onze klanten kunnen bijvoorbeeld verbinding met u maken via een netwerk dat niet 100% betrouwbaar is (stel dat het 90% van de tijd hoger is). Het uitgeven van de inspanningen en het geld om ervoor te zorgen dat uw service 95% betrouwbaar is, is per definitie een verspilling van tijd en geld. U wilt u het juiste niveau van betrouwbaarheid bereiken in uw systeem, services en producten.

SRE gaat nog een stap verder met dit pragmatisme. Als we nu kunnen bedenken dat er een wenselijk betrouwbaarheidsniveau is, is er iets wat we moeten doen als we succesvol zijn bij het vergaderen of overschrijden van dat niveau? En ook, wat als we het niet bereiken? We beantwoorden deze vragen verderop in de module.

Duurzaam realiseren

Het laatste woord van onze definitie waar we op in moeten gaan voordat we doorgaan, is duurzaam. Duurzaam verwijst naar de rol van mensen. Het is van cruciaal belang dat we een duurzame bedrijfsvoering creëren. Mensen betrouwbare systemen, services en producten bouwen. Als we niets doen om ervoor te zorgen dat ons werk duurzaam is. Als we om 3:00 uur wakker worden elke avond met een pagina en ze geen tijd geven met hun gezin. Als ze niet de mogelijkheid hebben om tijd te besteden aan zichzelf. Dan kunnen ze geen betrouwbare systemen bouwen. SRE denkt dat het belangrijk is dat we een operationele praktijk implementeren die in de loop van de tijd duurzaam is, zodat onze mensen hun best kunnen doen om hun werk te doen.

Test uw kennis

1.

Op welke eigenschap van een service, systeem of product is SRE voornamelijk gericht?

2.

Naar welk niveau van betrouwbaarheid streeft een SRE voor bijna alle services, systemen en producten?