De Dickerson-betrouwbaarheidshiërarchie

Voltooid

Het schema voor het leertraject Uw betrouwbaarheid verbeteren is gebaseerd op een model uit de Site Reliability Engineering, die de Dickerson-betrouwbaarheidshiërarchie wordt genoemd. Mikey Dickerson was een Site Reliability Engineer en voormalig oprichter en bestuurder van United States Digital Services. Hij heeft deze hiërarchie gecreëerd terwijl hij een van de grootste betrouwbaarheidscrises ooit geconfronteerd heeft.

a diagram of a pyramid showing the seven levels of the hierarchy of reliability.

Het model wordt gepatroont na de hiërarchie van behoeften van Abraham Maslow, die menselijke motivatie aanspreekt. Net als bij de hiërarchie van Maslow kan men pas hogerop gaan in de hiërarchie als eerst is voldaan aan de lagere niveaus. De niveaus waarop we ons in dit leertraject richten, van beneden naar boven, zijn:

Controleren

Dit niveau is de belangrijke fundering waarop de andere niveaus zijn gebaseerd. Het is de informatiebron die u in staat stelt concrete gesprekken te voeren over de betrouwbaarheid in uw organisatie aan de hand van objectieve gegevens. Wanneer u wijzigingen aanbrengt, is dit de manier waarop u het effect kent. In zelfs starker termen is deze praktijk hoe je weet of dingen beter of niet worden. Totdat u klaar bent met bewaking, kunt u de rest van het werk niet voltooien.

Reageren op incidenten

Elke productieomgeving heeft een storing van een bepaalde soort. Dat is een feit. U kunt zich dan de volgende vragen stellen: 'Wat doe ik wanneer er een incident plaatsvindt? Wat gebeurt er wanneer systemen niet beschikbaar zijn en klanten worden beïnvloed?" U hebt een standaardproces nodig dat effectief is bij het trireren van het probleem, het verkrijgen van de juiste resources en het oplossen van het probleem. Tegelijkertijd wilt u er ook voor zorgen dat u communiceert met belanghebbenden over het probleem.

Evaluatie na incidenten (van fouten leren)

Dit proces stelt ons in staat om onze werkwijzen op te schalen door gezamenlijk de ervaring van elk belangrijk incident te onderzoeken, te beoordelen en te bespreken. Na incidentbeoordeling kunnen we leren van fouten en is van cruciaal belang voor betrouwbaarheidswerkzaamheden.

Testen/release (implementatie)

Het volgende niveau is gericht op de test-, release- en implementatieprocessen. Op dit niveau zal blijken 'hoe goed u bent in het maken van foutopsporingssystemen en -processen die problemen kunnen ondervangen voordat ze incidenten veroorzaken'.

Capaciteitsplanning/schaling

Succes en de groei die ermee gepaard gaat, kan net zozeer een bedreiging voor betrouwbaarheid zijn als elk probleem met een systeem. Een klant kan het verschil niet zien tussen een systeem dat niet beschikbaar is omdat er een fout in de code is en een systeem dat niet kan worden verwerkt omdat het niet kan omgaan met de belasting van te veel personen die tegelijkertijd toegang proberen te krijgen. Dit hiërarchieniveau laat ons zien dat we aandacht moeten besteden aan capaciteitsplanning en schaling om een dergelijke dreiging te voorkomen.

Het ontwikkelproces en de gebruikerstoepassing

Er zijn nog twee niveaus in de hiërarchie die niet worden behandeld in het leertraject Betrouwbaarheid verbeteren: het ontwikkelingsproces en het werk dat een goede gebruikerservaring (UX) oplevert. Deze twee onderwerpen worden niet besproken in het leertraject Betrouwbaarheid verbeteren, maar er zijn andere goede Learn-modules over deze onderwerpen beschikbaar.

We hebben een afzonderlijke Learn-module gemaakt voor elk niveau in de betrouwbaarheidshiërarchie. We hopen dat u deelneemt aan alle vijf de modules in dit leertraject.

Test uw kennis

1.

Wat is het eerste, basisniveau in de Dickerson-betrouwbaarheidshiërarchie?