Betrouwbaarheidsnadelen

Een betrouwbare workload voldoet consistent aan de gedefinieerde betrouwbaarheidsdoelstellingen. Het moet vastgestelde tolerantiedoelen bereiken, in het ideale geval door gebeurtenissen te omzeilen die van invloed zijn op de betrouwbaarheid. Realistisch gezien moet een workload echter de impact van dergelijke gebeurtenissen tolereren en controleren en de bewerkingen tijdens actieve storingen op een vooraf bepaald niveau handhaven. Zelfs tijdens een noodgeval moet een betrouwbare workload binnen een bepaalde periode worden hersteld naar een specifieke status, die beide zijn overeengekomen tussen de belanghebbenden. Een plan voor het reageren op incidenten waarmee u snelle detectie en herstel kunt bereiken, is essentieel.

Tijdens de ontwerpfase van een workload moet u overwegen hoe beslissingen op basis van de principes van het betrouwbaarheidsontwerp en de aanbevelingen in de controlelijst voor ontwerpbeoordeling voor betrouwbaarheid van invloed kunnen zijn op de doelen en optimalisaties van andere pijlers. Bepaalde beslissingen kunnen sommige pijlers ten goede komen, maar vormen een compromis voor andere. In dit artikel worden voorbeelden van compromissen beschreven die een workloadteam kan tegenkomen bij het ontwerpen van workloadarchitectuur en bewerkingen voor betrouwbaarheid.

Compromissen tussen betrouwbaarheid en beveiliging

Afweging: Groter werklastoppervlak. De pijler Beveiliging geeft prioriteit aan een beperkt en ingesloten oppervlak om aanvalsvectoren te minimaliseren en het beheer van beveiligingscontroles te verminderen.

  • Betrouwbaarheid wordt vaak verkregen via replicatie. Replicatie kan plaatsvinden op onderdeelniveau, op gegevensniveau of zelfs op geografisch niveau. Replica's vergroten per ontwerp de oppervlakte van een werkbelasting. Vanuit het oogpunt van beveiliging heeft een beperkt en ingesloten oppervlak de voorkeur om potentiële aanvalsvectoren te minimaliseren en het beheer van beveiligingscontroles te stroomlijnen.

  • Op dezelfde manier vergroten oplossingen voor herstel na noodgevallen, zoals back-ups, de oppervlakte van een workload. Ze zijn echter vaak geïsoleerd van de runtime van de workload. Hiervoor is de implementatie van aanvullende beveiligingscontroles vereist, die mogelijk specifiek zijn voor de oplossing voor herstel na noodgevallen.

  • Omwille van de betrouwbaarheidsdoelstellingen zijn mogelijk extra onderdelen nodig voor de architectuur, waardoor de oppervlakte groter wordt. Er kan bijvoorbeeld een berichtenbus worden toegevoegd om aanvragen tolerant te maken. Deze toegenomen complexiteit vergroot de oppervlakte van de werkbelasting door nieuwe onderdelen toe te voegen die moeten worden beveiligd, mogelijk op manieren die nog niet in het systeem worden gebruikt. Deze onderdelen gaan doorgaans vergezeld van aanvullende code en bibliotheken ter ondersteuning van hun gebruik of algemene betrouwbaarheidspatronen, waardoor ook de oppervlakte van de toepassing wordt vergroot.

Afweging: bypass van beveiligingsbeheer. De beveiligingspijler raadt aan dat alle besturingselementen actief blijven in zowel normale als gestreste systemen.

  • Wanneer een workload te maken heeft met een betrouwbaarheidsgebeurtenis die wordt aangepakt onder actieve incidentrespons, kan urgentie de werkbelastingteams onder druk zetten om beveiligingscontroles te omzeilen die zijn geoptimaliseerd voor routinematige toegang.

  • Het oplossen van problemen kan ertoe leiden dat het team beveiligingsprotocollen tijdelijk uitschakelt, waardoor een al gestresseerd systeem mogelijk wordt blootgesteld aan extra beveiligingsrisico's. Er bestaat ook een risico dat de beveiligingsprotocollen niet onmiddellijk opnieuw tot stand worden gebracht.

  • Gedetailleerde implementaties van beveiligingscontroles, zoals toewijzingen van op rollen gebaseerd toegangsbeheer of firewallregels, zorgen voor complexiteit en gevoeligheid van de configuratie, waardoor de kans op onjuiste configuratie toeneemt. Het beperken van deze potentiële betrouwbaarheidsimpact door het gebruik van brede regels erodeert alle drie Zero Trust architectuurprincipes.

Afweging: Oude softwareversies. De beveiligingspijler stimuleert een 'up-up, stay current'-benadering voor beveiligingspatches van leveranciers.

  • Het toepassen van beveiligingspatches of software-updates kan het doelonderdeel verstoren, waardoor de softwarewijziging niet beschikbaar is. Door het uitstellen of vermijden van patches kunnen de potentiële betrouwbaarheidsrisico's worden vermeden, maar is het systeem niet beschermd tegen veranderende bedreigingen.

  • De voorgaande overweging is ook van toepassing op de code van de workload. Het is bijvoorbeeld van toepassing op toepassingscode die gebruikmaakt van oude bibliotheken en containers die gebruikmaken van oude basisinstallatiekopieën. Als het bijwerken en implementeren van toepassingscode wordt gezien als een niet-gemitigeerd betrouwbaarheidsrisico, wordt de toepassing na verloop van tijd blootgesteld aan extra beveiligingsrisico's.

Compromissen tussen betrouwbaarheid en kostenoptimalisatie

Tradeoff: Verhoogde implementatieredundantie of -verspilling. Een kostengeoptimaliseerde workload minimaliseert onderbenutte resources en voorkomt over-inrichting van resources.

  • Replicatie is een belangrijke strategie voor betrouwbaarheid. De strategie is met name om voldoende replicatie te hebben om een bepaald aantal gelijktijdige knooppuntfouten af te handelen. De tolerantie voor meer gelijktijdige knooppuntfouten vereist een hoger aantal replica's, wat leidt tot hogere kosten.

  • Overinrichting is een andere techniek voor het absorberen van onverwachte belasting van een systeem die anders tot een betrouwbaarheidsprobleem zou kunnen leiden. Eventuele overtollige capaciteit die niet wordt gebruikt, wordt beschouwd als verspillend.

  • Als een workload gebruikmaakt van een oplossing voor herstel na noodgevallen die te veel voldoet aan de beoogde herstelpunten en -tijdsdoelstellingen van de workload, leidt dit tot hogere kosten vanwege verspilling.

  • Workloadimplementaties zelf zijn een mogelijke bron voor impact op de betrouwbaarheid en die impact wordt vaak verzacht door redundantie tijdens de implementatie via een implementatiestrategie zoals blauw/groen. Deze tijdelijke duplicatie van resources tijdens een veilige implementatie verhoogt doorgaans de totale kosten van de workload tijdens die perioden. De kosten stijgen met de frequentie van implementaties.

Afweging: Verhoogde investeringen in bewerkingen die niet zijn afgestemd op functionele vereisten. Eén benadering voor kostenoptimalisatie is het evalueren van de waarde die wordt geboden door een geïmplementeerde oplossing.

  • Om betrouwbaarheid te bereiken, vereist een systeem waarneembaarheid. Bewakingssystemen vereisen overdracht en verzameling van waarneembaarheidsgegevens. Naarmate de bewakingsmogelijkheden toenemen, nemen de frequentie en het volume van gegevens toe, wat leidt tot extra kosten.

  • Betrouwbaarheid in workloads vereist tests en drills. Het ontwerpen en uitvoeren van tests kost tijd en mogelijk gespecialiseerde hulpprogramma's, wat kosten met zich meebrengt.

  • Workloads met hoge betrouwbaarheidsdoelen hebben vaak een snel reactieproces waarvoor technische teamleden deel moeten uitmaken van een formele rotatie op oproep. Dit proces veroorzaakt extra personeelskosten en kosten voor verloren verkoopkansen vanwege aandacht die elders kan worden omgeleid. Er worden ook potentiële toolingkosten in rekening gebracht voor het beheer van het proces.

  • Ondersteuningscontracten met technologieproviders zijn een belangrijk onderdeel van een betrouwbare workload. Ondersteuningscontracten die niet worden gebruikt omdat het ondersteuningsniveau te veel is ingericht, gaan verloren.

Compromissen tussen betrouwbaarheid en operational excellence

Tradeoff: Verhoogde operationele complexiteit. Operational Excellence, net als betrouwbaarheid zelf, geeft prioriteit aan eenvoud.

  • Betrouwbaarheid verhoogt meestal de complexiteit van een workload. Naarmate de complexiteit van een workload toeneemt, kunnen de operationele elementen van de workload ook toenemen om de toegevoegde onderdelen en processen te ondersteunen in termen van implementatiecoördinatie en configuratieoppervlak.

  • Het hebben van een uitgebreide bewakingsstrategie voor een workload is een belangrijk onderdeel van operationele uitmuntendheid. Het introduceren van extra onderdelen in een architectuur om ontwerppatronen voor betrouwbaarheid te implementeren, resulteert in meer gegevensbronnen om te beheren, waardoor de implementatie van gedistribueerde tracering en waarneembaarheid complexer wordt.

  • Het gebruik van meerdere regio's om beperkingen van resourcecapaciteit van één regio te overwinnen en/of een actieve/actieve architectuur te implementeren, verhoogt de complexiteit van het operationele beheer van de workload. Deze complexiteit wordt geïntroduceerd door de noodzaak om meerdere regio's te beheren en de noodzaak om de gegevensreplicatie tussen deze regio's te beheren.

Tradeoff: Verhoogde inspanning om teamkennis en -bewustzijn te genereren. In de pijler Operational Excellence wordt aanbevolen om een documentatieopslagplaats voor procedures en topologieën bij te houden en te onderhouden.

  • Naarmate een workload robuuster wordt door de toevoeging van betrouwbaarheidsonderdelen en -patronen, kost het meer tijd om operationele procedures en artefactdocumentatie te onderhouden.

  • Training wordt complexer naarmate het aantal onderdelen in de workload toeneemt. Deze complexiteit is van invloed op de tijd die nodig is voor onboarding en vergroot de kennis die nodig is om productroadmaps en serviceniveaurichtlijnen bij te houden.

Compromissen tussen betrouwbaarheid en prestatie-efficiëntie

Afweging: verhoogde latentie. Prestatie-efficiëntie vereist dat een systeem prestatiedoelen bereikt voor gebruikers- en gegevensstromen.

  • Betrouwbaarheidspatronen bevatten vaak gegevensreplicatie om storingen in replica's te overleven. Replicatie introduceert extra latentie voor betrouwbare gegevensschrijfbewerkingen, die een deel van het prestatiebudget voor een specifieke gebruiker of gegevensstroom verbruiken.

  • Betrouwbaarheid maakt soms gebruik van verschillende vormen van resourceverdeling om de belasting te verdelen of opnieuw te distribueren naar gezonde replica's. Een toegewezen onderdeel dat wordt gebruikt voor het balanceren, is meestal van invloed op de prestaties van de aanvraag of het proces dat wordt verdeeld.

  • Het distribueren van onderdelen over geografische grenzen of beschikbaarheidszones om een bereikimpact te overleven, introduceert netwerklatentie in de communicatie tussen onderdelen die deze beschikbaarheidsgrenzen omspannen.

  • Uitgebreide processen worden gebruikt om de status van een workload te observeren. Hoewel bewaking essentieel is voor de betrouwbaarheid, kan instrumentatie van invloed zijn op de systeemprestaties. Naarmate de waarneembaarheid toeneemt, kunnen de prestaties afnemen.

Afweging: verhoogde over-inrichting. De pijler Prestatie-efficiëntie ontmoedigt overinrichting en raadt in plaats daarvan het gebruik van voldoende resources aan om aan de vraag te voldoen.

  • Automatische schaalbewerkingen zijn niet onmiddellijk en kunnen daarom niet op betrouwbare wijze een plotselinge en dramatische piek in de vraag verwerken die niet kan worden vormgegeven of afgevlakt. Daarom is over-inrichting via grotere exemplaren of meer exemplaren een kritieke betrouwbaarheidstactiek om rekening te houden met de vertraging tussen het vraagsignaal en het maken van het aanbod. Ongebruikte capaciteit is een tegenprestatie voor de prestatie-efficiëntie.

  • Soms kan een onderdeel niet worden geschaald als reactie op de vraag en is die vraag niet volledig voorspelbaar. Het gebruik van grote instanties om het ergste geval te dekken, leidt tot over-inrichtingsafval in situaties die zich buiten die use-case bevinden.

Verken de compromissen voor de andere pijlers: