Beveiligen en herstellen in cloudbeheer

Artikel
05/25/2024

Voordat u zich voorbereidt op een potentiële workloadstoring, moeten cloudbeheerteams eerst controleren of ze aan de vereisten voor:

Terwijl ze plannen, moeten de teams beginnen met een aanname dat er iets mislukt wanneer zich een noodgeval voordoet. Door een storing te voorbereiden, kunnen de teams sneller fouten detecteren en sneller herstellen. De focus van deze discipline ligt op de stappen die direct na een storing in een systeem komen. Hoe beveiligt u workloads zodat ze snel kunnen worden hersteld wanneer er een storing optreedt?

Geen technische oplossing kan consistent een SLA bieden die 100 procent uptime garandeert. Oplossingen met de meest redundante architecturen claimen om 'zes 9's' of 99,9999 procent uptime te leveren. Maar zelfs een "zes 9s"-oplossing gaat 31,6 seconden in een bepaald jaar omlaag. Het is zeldzaam dat een oplossing een grote, doorlopende operationele investering rechtvaardigt die nodig is om 'zes 9's' uptime te bereiken.

Gesprekken over beveiliging en herstel vertalen

De workloads die bedrijfsactiviteiten mogelijk maken, bestaan uit:

Toepassingen
Gegevens
Virtuele machines (VM's)
Andere assets

Voor elke asset is mogelijk een eigen benadering van beveiliging en herstel vereist. Het belangrijkste doel van deze discipline is het opzetten van een consistente toezegging binnen de basislijn voor beheer, die een uitgangspunt kan bieden voor zakelijke discussies.

Cloudbeheerteams moeten ten minste een basislijnbenadering maken voor elke asset, met een duidelijke toezegging voor snel herstel en minimaal gegevensverlies.

Beoogde hersteltijd (RTO)

Een beoogde hersteltijd is de hoeveelheid tijd die nodig is om een systeem vóór een noodgeval te herstellen. Dit omvat de benodigde tijd voor het volgende:

Minimale functionaliteit herstellen naar VM's en toepassingen
Herstel gegevens die vereist zijn voor toepassingen.

In zakelijke termen vertegenwoordigt RTO de hoeveelheid tijd die bedrijfsprocessen buiten gebruik hebben. Voor bedrijfskritieke workloads moet deze variabele relatief laag zijn, zodat bedrijfsprocessen snel kunnen worden hervat. Voor workloads met een lagere prioriteit heeft een standaardniveau van RTO mogelijk geen merkbare invloed op de bedrijfsprestaties.

Een bedrijf moet een beheerbasislijn maken waarmee een standaard-RTO wordt vastgesteld voor niet-bedrijfskritieke workloads. Het bedrijf kan die basislijn vervolgens gebruiken als een manier om extra investeringen in hersteltijden te rechtvaardigen.

Beoogde herstelpunten (RPO)

In de meeste cloudbeheersystemen worden gegevens periodiek vastgelegd en opgeslagen in een vorm van gegevensbeveiliging. Het herstelpunt verwijst naar de laatste keer dat de gegevens zijn vastgelegd. Wanneer een systeem uitvalt, kan het alleen worden hersteld naar het meest recente herstelpunt.

De beoogde herstelpunt wordt gemeten vanaf het meest recente herstelpunt naar een storing. Als de RPO in uren wordt gemeten, resulteert een systeemfout in het verlies van gegevens gedurende de uren tussen het laatste herstelpunt en de storing. Als de RPO in dagen wordt gemeten, resulteert een systeemfout in het verlies van gegevens voor de dagen tussen het laatste herstelpunt en de storing. Een RPO van één dag zou theoretisch resulteren in het verlies van alle transacties op de dag die tot de fout leiden.

Voor bedrijfskritieke systemen kan het meten van een RPO in minuten of seconden helpen om verlies in omzet of winst te voorkomen. Een kortere RPO leidt doorgaans echter tot hogere beheerkosten. Om deze kosten te minimaliseren, moet een bedrijf een beheerbasislijn maken die zich richt op de langst acceptabele RPO. Het bedrijf kan vervolgens de RPO van de specifieke platforms of workloads verminderen die meer investeringen rechtvaardigen.

Workloads beveiligen en herstellen

De meeste workloads in een IT-omgevingsondersteuning een specifiek bedrijf of technisch proces. Systemen die geen systeemimpact hebben op bedrijfsactiviteiten, rechtvaardigen meestal niet de toegenomen investering die nodig is om systemen snel te herstellen of gegevensverlies te minimaliseren. Door een basislijn tot stand te brengen, kan een bedrijf bepalen welk niveau van herstelondersteuning ze nodig hebben voor een prijspunt dat ze consistent kunnen beheren. Als u dit begrijpt, kunnen zakelijke belanghebbenden de waarde van een toegenomen investering in herstel evalueren.

Voor de meeste cloudbeheerteams levert een verbeterde basislijn, met specifieke RPO/RTO-toezeggingen voor verschillende activa, het gunstigste pad op naar wederzijdse zakelijke toezeggingen. In de volgende secties worden een aantal algemene verbeterde basislijnen beschreven waarmee een bedrijf eenvoudig beveiligings- en herstelfunctionaliteit kan toevoegen via een herhaalbaar proces.

Gegevens beveiligen en herstellen

Gegevens zijn misschien wel het meest waardevolle activum in de digitale economie. Verlies van de gegevens die een productieworkload mogelijk maken, leidt tot verlies in omzet of winst. De meest voorkomende verbeterde basislijn is de mogelijkheid om gegevens effectief te beveiligen en te herstellen. We raden cloudbeheerteams aan om een niveau van verbeterde beheerbasislijn te bieden dat ondersteuning biedt voor algemene gegevensplatforms.

Voordat cloudbeheerteams platformbewerkingen implementeren, is het gebruikelijk dat ze verbeterde bewerkingen voor een PaaS-gegevensplatform (Platform as a Service) ondersteunen. Het is bijvoorbeeld eenvoudig voor een cloudbeheerteam om een hogere frequentie van back-ups of multiregionale replicatie af te dwingen voor Azure SQL Database- of Azure Cosmos DB-oplossingen. Hierdoor kan het ontwikkelteam de RPO eenvoudig verbeteren door hun gegevensplatforms te moderniseren.

Zie De platformbewerkingsdiscipline voor meer informatie over dit gedachteproces.

VM's beveiligen en herstellen

De meeste workloads zijn enigszins afhankelijk van virtuele machines, die verschillende aspecten van de oplossing hosten. Een bedrijf moet enkele virtuele machines snel herstellen om de werkbelasting te ondersteunen na een systeemfout.

Elke minuut downtime op deze virtuele machines kan leiden tot verlies van omzet of verminderde winst. Wanneer downtime van VM's direct invloed heeft op de fiscale prestaties van het bedrijf, is RTO erg belangrijk. Cloudbeheerteams kunnen virtuele machines snel herstellen door ze te repliceren naar een secundaire site en geautomatiseerd herstel te gebruiken, een model dat wordt aangeduid als een dynamisch herstelmodel. De teams kunnen virtuele machines ook repliceren naar een functionele, secundaire site in een benadering die bekend staat als een dynamisch model of een model voor hoge beschikbaarheid. De hot-hot aanpak is duurder, maar het biedt de hoogste status van herstel.

Elk van deze modellen vermindert de RTO, waardoor bedrijven hun bedrijfsmogelijkheden sneller kunnen herstellen. Elk model leidt echter ook tot aanzienlijk hogere kosten voor cloudbeheer.

Houd er ook rekening mee dat back-ups, behalve replicatie voor hoge beschikbaarheid, moeten worden ingeschakeld voor scenario's zoals:

Onbedoeld verwijderen
Gegevensbeschadiging
Ransomware-aanvallen

Zie de workloadbewerkingsdiscipline voor meer informatie over dit gedachteproces.

Volgende stappen

Nadat aan dit beheerbasislijnonderdeel is voldaan, kan het team vooruitkijken om storingen in de platformbewerkingen en workloadbewerkingen te voorkomen.

Workloadbewerkingen voor platformbewerkingen

Delen via