Protéger et récupérer dans la gestion cloud

Article
07/11/2023

Avant de se préparer à une éventuelle panne de la charge de travail, les équipes de gestion du cloud doivent d’abord vérifier qu’elles ont respecté les impératifs suivants :

Durant la planification, les équipes doivent partir du principe qu’un problème va se poser en cas de sinistre. La préparation d’une panne permet aux équipes de détecter les défaillances plus tôt, et d’effectuer une reprise d’activité plus rapidement. Cette discipline est axée sur les étapes qui suivent immédiatement la défaillance d’un système. Comment protéger les charges de travail pour qu’elles puissent faire l’objet d’une reprise d’activité rapidement en cas de panne ?

Aucune solution technique ne peut offrir de manière systématique un contrat SLA garantissant une durée de bon fonctionnement de 100 %. Les solutions aux architectures les plus redondantes affirment fournir une durée de fonctionnement de « six 9 », soit de 99,9999 pour cent. Cependant, même une solution à « six 9 » tombe en panne pendant 31,6 secondes dans une année donnée. Il est rare qu’une solution garantisse l’investissement opérationnel important et continu permettant d’atteindre « six 9 » de durée de bon fonctionnement.

Traduire les conversations de protection et de récupération

Les charges de travail sur lesquelles reposent les opérations métier sont les suivantes :

Applications
Données
Machines virtuelles
Autres ressources

Chaque ressource peut nécessiter sa propre approche de la protection et de la récupération. L’objectif important de cette discipline est d’établir un engagement cohérent au sein de la base de référence de gestion pour fournir un point de départ aux discussions métier.

Les équipes de gestion du cloud doivent au minimum créer une approche de référence pour chaque ressource, avec un engagement clair en faveur d’une récupération rapide et d’une perte de données minimale.

Objectifs de délai de récupération (RTO)

Un objectif de temps de récupération représente le temps nécessaire pour restaurer un système à l’état qui était le sien avant un sinistre. Cela inclut le temps nécessaire pour :

Restaurer des fonctionnalités minimales pour les machines virtuelles et les applications
Restaurer les données nécessaires aux applications.

En termes métier, l’objectif RTO (objectif de temps de récupération) représente la durée pendant laquelle les processus métier sont hors service. Pour les charges de travail stratégiques, cette variable doit être relativement faible afin de permettre une reprise rapide des processus métier. Pour les charges de travail de priorité plus basse, un niveau standard de RTO peut ne pas avoir d’impact notable sur le niveau de performance de l’entreprise.

Une entreprise doit créer une base de référence de gestion qui établit un objectif RTO standard pour les charges de travail non stratégiques. L’entreprise peut ensuite utiliser cette ligne de base pour justifier des investissements supplémentaires en matière de délais de récupération.

Objectifs de point de récupération (RPO)

Dans la plupart des systèmes de gestion du cloud, une forme de protection des données capture et stocke périodiquement les données. Le point de récupération fait référence à la dernière capture des données. En cas de défaillance d’un système, celui-ci peut être restauré uniquement au point de récupération le plus récent.

L’objectif de point de récupération est mesuré entre le point de récupération le plus récent et une panne. Si l’objectif RPO est mesuré en heures, une défaillance du système entraîne la perte de données pendant les heures comprises entre le dernier point de récupération et la panne. Si l’objectif RPO est mesuré en jours, une défaillance du système entraîne la perte de données pendant les jours compris entre le dernier point de récupération et la panne. Un objectif de point de récupération d’un jour entraînerait théoriquement la perte de toutes les transactions de la journée précédant la défaillance.

Pour les systèmes stratégiques, la mesure d’un objectif RPO en minutes ou en secondes peut permettre d’éviter une perte de revenus ou de bénéfices. Toutefois, un objectif RPO plus court entraîne généralement une augmentation des coûts de gestion. Pour réduire ces coûts, une entreprise doit créer une base de référence de gestion qui se concentre sur l’objectif RPO acceptable le plus long. L’entreprise peut ensuite réduire l’objectif RPO des plateformes ou charges de travail spécifiques qui justifient un investissement plus important.

Protéger et récupérer des charges de travail

La plupart des charges de travail dans un environnement informatique prennent en charge un processus d’entreprise ou technique spécifique. Les systèmes qui n’ont pas d’impact systémique sur les opérations métier ne justifient généralement pas les investissements accrus nécessaires à la récupération rapide des systèmes ou à la réduction des pertes de données. En établissant une base de référence, une entreprise peut déterminer le niveau de prise en charge de la récupération dont elle a besoin, à un prix qu’elle peut gérer de manière cohérente. Cette compréhension permet aux parties prenantes de l’entreprise d’évaluer la valeur d’un investissement accru au niveau de la récupération.

Pour la plupart des équipes de gestion du cloud, une base de référence améliorée, avec des engagements RPO/RTO spécifiques pour diverses ressources, représente la voie la plus favorable aux engagements métier mutuels. Les sections suivantes décrivent quelques bases de référence améliorées courantes qui donnent les moyens à l’entreprise d’ajouter facilement des fonctionnalités de protection et de récupération via un processus reproductible.

Protection et récupération des données

Les données constituent sans doute la ressource la plus précieuse dans l’économie numérique. Les pertes de données qui touchent une charge de travail de production entraînent une perte de revenus ou de bénéfices. La base de référence améliorée la plus courante est la capacité à protéger et récupérer efficacement les données. Nous encourageons les équipes de gestion du cloud à offrir un niveau de base de référence de gestion améliorée, qui prend en charge les plateformes de données courantes.

Avant que les équipes de gestion de cloud n’implémentent des opérations de plateforme, il est courant qu’elles prennent en charge des opérations améliorées pour une plateforme de données PaaS. Par exemple, il est facile pour une équipe de gestion du cloud d’imposer une plus grande fréquence de sauvegarde ou de réplication multirégionale pour les solutions Azure SQL Database ou Azure Cosmos DB. De cette façon, l’équipe de développement peut facilement améliorer le RPO en modernisant simplement ses plateformes de données.

Pour en savoir plus sur ce processus de réflexion, consultez Discipline d’opérations de plateforme.

Protection et récupération des machines virtuelles

La plupart des charges de travail dépendent dans une certaine mesure des machines virtuelles, qui hébergent divers aspects de la solution. Une entreprise doit obtenir la récupération rapide de certaines machines virtuelles pour que la charge de travail puisse gérer les processus après une défaillance du système.

Chaque minute de temps d’arrêt sur ces machines virtuelles peut entraîner une perte de chiffre d’affaires ou une réduction de la rentabilité. Lorsque le temps d’arrêt des machines virtuelles a un impact direct sur le rendement budgétaire de l’entreprise, le RTO est très important. Les équipes de gestion du cloud peuvent garantir une récupération rapide des machines virtuelles en les répliquant sur un site secondaire et en utilisant la récupération automatisée, un modèle appelé mode de récupération à chaud. Les équipes peuvent également répliquer les machines virtuelles sur un site secondaire opérationnel selon l’approche dite chaud/chaud ou mode de haute disponibilité. L’approche chaud/chaud est plus coûteuse, mais elle offre l’état de récupération le plus élevé.

Chacun de ces modèles réduit l’objectif RTO, ce qui aide les entreprises à restaurer plus rapidement leurs fonctionnalités métier. Toutefois, chaque modèle entraîne également des coûts de gestion cloud considérablement accrus.

Notez également qu’en dehors de la réplication pour la haute disponibilité, la sauvegarde doit être activée dans les scénarios suivants :

Suppression accidentelle
Altération des données
Attaques par rançongiciel

Pour en savoir plus sur ce processus de réflexion, consultez Discipline d’opérations de charge de travail.

Étapes suivantes

Une fois réalisé ce composant de la base de référence pour la gestion, l’équipe peut anticiper les pannes afin de les éviter en effectuant des opérations sur les plateformes et des opérations sur les charges de travail.

Opérations relatives aux plateformes Opérations relatives aux charges de travail

Partager via