Beveiligen en herstellen in cloudbeheer

Voordat u zich voorbereidt op een mogelijke workloadstoring, moeten cloudbeheerteams er eerst voor zorgen dat ze voldoen aan de vereisten voor:

Terwijl ze plannen, moeten de teams ervan uitgaan dat er iets zal mislukken wanneer zich een noodgeval voordoet. Met voorbereiding op een storing kunnen de teams fouten sneller detecteren en sneller herstellen. De focus van deze discipline ligt op de stappen die direct nadat een systeem is uitvalt. Hoe beveiligt u workloads zodat ze snel kunnen worden hersteld wanneer er een storing optreedt?

Geen enkele technische oplossing kan consistent een SLA bieden die 100 procent uptime garandeert. Oplossingen met de meest redundante architecturen claimen te leveren op 'zes 9's' of 99,9999 procent uptime. Maar zelfs een 'zes 9s'-oplossing gaat 31,6 seconden naar beneden in een bepaald jaar. Het komt zelden voor dat een oplossing een grote, doorlopende operationele investering rechtvaardigt die nodig is om 'zes 9s' uptime te bereiken.

Beveiligings- en herstelgesprekken vertalen

De workloads die bedrijfsactiviteiten ondersteunen, bestaan uit:

  • toepassingen
  • gegevens
  • virtuele machines (VM's)
  • andere activa

Voor elke asset is mogelijk een eigen benadering van beveiliging en herstel vereist. Het belangrijke doel van deze discipline is het tot stand brengen van een consistente toezegging binnen de managementbasislijn, die een startpunt kan vormen voor zakelijke discussies.

Cloudbeheerteams moeten minimaal een basislijnbenadering voor elke asset maken, met een duidelijke toezegging voor snel herstel en minimaal gegevensverlies.

Beoogde hersteltijd (RTO)

Een hersteltijddoelstelling is de hoeveelheid tijd die nodig is om een systeem te herstellen naar de status vóór een noodgeval. Dit omvat de tijd die nodig is voor het volgende:

  • minimale functionaliteit herstellen naar VM's en toepassingen
  • gegevens herstellen die vereist zijn voor toepassingen.

In zakelijke termen vertegenwoordigt RTO de hoeveelheid tijd dat bedrijfsprocessen buiten gebruik zijn. Voor bedrijfskritieke workloads moet deze variabele relatief laag zijn, zodat bedrijfsprocessen snel kunnen worden hervat. Voor workloads met een lagere prioriteit heeft een standaardniveau van RTO mogelijk geen merkbare invloed op de bedrijfsprestaties.

Een bedrijf moet een beheerbasislijn maken waarmee een standaard-RTO wordt ingesteld voor niet-bedrijfskritieke workloads. Het bedrijf kan die basislijn vervolgens gebruiken als een manier om extra investeringen in hersteltijden te rechtvaardigen.

Herstelpuntdoelstellingen (RPO)

In de meeste cloudbeheersystemen worden gegevens met een bepaalde vorm van gegevensbeveiliging periodiek vastgelegd en opgeslagen. Het herstelpunt verwijst naar de laatste keer dat de gegevens zijn vastgelegd. Wanneer een systeem uitvalt, kan het alleen worden hersteld naar het meest recente herstelpunt.

Het herstelpuntdoel wordt gemeten van het meest recente herstelpunt tot een storing. Als de RPO wordt gemeten in uren, resulteert een systeemfout in het verlies van gegevens voor de uren tussen het laatste herstelpunt en de storing. Als de RPO wordt gemeten in dagen, resulteert een systeemfout in het verlies van gegevens voor de dagen tussen het laatste herstelpunt en de storing. Een RPO van één dag zou theoretisch resulteren in het verlies van alle transacties op de dag voorafgaand aan de fout.

Voor bedrijfskritieke systemen kan het meten van een RPO in minuten of seconden helpen om verlies van omzet of winst te voorkomen. Een kortere RPO leidt echter over het algemeen tot hogere beheerkosten. Om deze kosten te minimaliseren, moet een bedrijf een beheerbasislijn maken die zich richt op de langst acceptabele RPO. Het bedrijf kan vervolgens de RPO verlagen van de specifieke platforms of workloads die meer investeringen rechtvaardigen.

Workloads beveiligen en herstellen

De meeste workloads in een IT-omgevingsondersteuning een specifiek zakelijk of technisch proces. Systemen die geen systemische invloed hebben op bedrijfsactiviteiten, rechtvaardigen meestal niet de verhoogde investering die nodig is om systemen snel te herstellen of gegevensverlies te minimaliseren. Door een basislijn op te stellen, kan een bedrijf bepalen welk niveau van herstelondersteuning ze nodig hebben op een prijs die ze consistent kunnen beheren. Als u dit begrijpt, kunnen zakelijke belanghebbenden de waarde van een verhoogde investering in herstel evalueren.

Voor de meeste cloudbeheerteams levert een verbeterde basislijn, met specifieke RPO/RTO-toezeggingen voor verschillende activa, het meest gunstige pad naar wederzijdse zakelijke toezeggingen op. In de volgende secties worden enkele algemene verbeterde basislijnen beschreven waarmee een bedrijf eenvoudig beveiligings- en herstelfunctionaliteit kan toevoegen via een herhaalbaar proces.

Gegevens beveiligen en herstellen

Gegevens zijn misschien wel de meest waardevolle asset in de digitale economie. Verlies van de gegevens die een productieworkload aanstuurt, leidt tot verlies van omzet of winst. De meest voorkomende verbeterde basislijn is de mogelijkheid om gegevens effectief te beveiligen en te herstellen. We raden cloudbeheerteams aan om een niveau van verbeterde basislijn voor beheer te bieden dat ondersteuning biedt voor algemene gegevensplatforms.

Voordat cloudbeheerteams platformbewerkingen implementeren, is het gebruikelijk dat ze verbeterde bewerkingen voor een PaaS-gegevensplatform (Platform as a Service) ondersteunen. Het is bijvoorbeeld eenvoudig voor een cloudbeheerteam om een hogere back-upfrequentie of multiregionale replicatie af te dwingen voor Azure SQL Database- of Azure Cosmos DB-oplossingen. Hierdoor kan het ontwikkelteam RPO eenvoudig verbeteren door hun gegevensplatformen te moderniseren.

Zie De discipline Platformbewerkingen voor meer informatie over dit denkproces.

VM's beveiligen en herstellen

De meeste workloads zijn enigszins afhankelijk van virtuele machines, die verschillende aspecten van de oplossing hosten. Een bedrijf moet een aantal virtuele machines snel herstellen voor de workload om de processen na een systeemfout te ondersteunen.

Elke minuut downtime op deze virtuele machines kan leiden tot verlies van omzet of verminderde winst. Wanneer downtime van vm's een directe invloed heeft op de fiscale prestaties van het bedrijf, is RTO erg belangrijk. Cloudbeheerteams kunnen virtuele machines snel herstellen door ze te repliceren naar een secundaire site en geautomatiseerd herstel te gebruiken, een model dat wordt aangeduid als een dynamisch herstelmodel. De teams kunnen ook virtuele machines repliceren naar een functionele, secundaire site in een methode die bekend staat als een hot-hot- of high-availability-model. De hot-hot-benadering is duurder, maar biedt de hoogste herstelstatus.

Elk van deze modellen vermindert de RTO, waardoor bedrijven hun zakelijke mogelijkheden sneller kunnen herstellen. Elk model leidt echter ook tot aanzienlijk hogere cloudbeheerkosten.

Houd er ook rekening mee dat, afgezien van replicatie voor hoge beschikbaarheid, back-ups moeten worden ingeschakeld voor scenario's zoals:

  • onbedoeld verwijderen
  • beschadigde gegevens
  • ransomware-aanvallen

Zie Discipline workloadbewerkingen voor meer informatie over dit denkproces.

Volgende stappen

Nadat aan dit basislijnonderdeel voor beheer is voldaan, kan het team vooruitkijken om storingen in de platformbewerkingen en workloadbewerkingen te voorkomen.