Plan de Reprise d’Activité et Cloud public – Rappels et bénéfices

En informatique, un Plan de Reprise d'Activité (en anglais DRP: Disaster Recovery Plan) permet d'assurer, en cas de crise majeure ou importante d'un centre informatique (incendie, inondation, perte d'alimentation électrique...), la reconstruction de son infrastructure et la remise en route des applications supportant l'activité et la survie d'une organisation.

Un plan de reprise d’activité c’est 3 composants:
- Une ou des solutions techniques
- Des processus qui sont documentés, régulièrement testés et maintenus à jour
- Des personnées formées aux solutions techniques, entrainées à l’exécution du PRA, capables de suivre et maintenir les procédures définies (et écrites)

Dans un Plan de Reprise d'Activité, certaines métriques sont absolument à définir dans la définition du Plan.

Le RTO (Recovery Time Objective) : C'est la durée maximale d’interruption acceptable pendant lequel une ressource informatique (serveur, réseau, application) peut ne pas être opérationnelle suite à une interruption majeure de service. Cet objectif est défini à l’avance en fonction des besoins de l’entreprise et des métiers utilisant le SI. Plus la ressource est critique plus le RTO est faible. Un RTO très très faible peut être assuré par un (Géo)Cluster qui a un donc un coût non négligeable (d'ailleurs dans le cas d'un cluster, on parlera plutôt de PCA : Plan de Continuité d'Activité).

Le RPO (Recovery Point Objective) : c'est la durée maximale d'enregistrement des données qu'il est acceptable de perdre (= perte de données maximum admissible) lors d'une interruption majeure de service. Quantifier le RPO revient à définir les objectifs de sauvegarde (implique de connaître la volumétrie et les fenêtres de sauvegarde) et/ou de réplication asynchrone de données.


Dessin très inspiré du schéma de Wikipedia : https://fr.wikipedia.org/wiki/Fichier:RTO_RPO.gif

Aujourd'hui la majorité des SI bien gérés dispose d'un plan de reprise d'activité. Reste à vérifier son efficacité !

Un frein à un PRA efficace est clairement son coût (et surtout les CAPEX associés).

Celui se décompose de la manière suivante :
- le choix du site (datacenter)de secours avec son emplacement, sa taille, son type (froid, tiède ou chaud)
- Le coût des équipements sur le site de secours : réseau, stockage, serveurs
- Le coût d'opération des équipements sur le datacenter de secours : électricité, climatisation, protection physique
- Le RPO défini
- le RTO défini : plus le RTO est faible plus le coût est élevé
- Le périmètre couvert par le PRA (plus il y a d'éléments à protéger, plus le coût sera élevé)
- La fréquence des tests de ce PRA (impliquant des ressources humaines et techniques dédiées au test)

Du coup, il est compréhensible que parfois le PRA de certaines organisations soit inexistant (faute de moyen financiers) ou simplifié au point d'être inutile (ex: une seconde salle serveurs collée à la première).

L'avènement des solutions de Cloud Public permet désormais d'envisager des Plans de Reprise d'Activité de nouvelle génération :
- Moins chers
- Ne nécessitant pas la gestion de datacenter / salle serveurs de secours
- Où les CAPEX sont remplacés par des OPEX
- Assurant une capacité de reprise rapide d'activité pour des organisations de toutes tailles (de la TPE à la multi-nationale). 

Parmi les solutions Cloud disponibles sur le marché pour les PRA, Microsoft propose Azure Site Recovery qui permet la réplication de machines physiques ou virtuelles à destination des datacenters Microsoft Azure. Ainsi, les ressources protégées dans le cadre d'un PRA utilisant ASR peuvent être instanciées à la demande sous la forme de machines virtuelles dans les datacenters de Microsoft en cas de désastre majeur sur site.

Vous l’aurez compris : ici le Cloud n’est que la composante technique du PRA, la définition, le suivi, la maintenance des procédures et leur application dans l’action ne pourra être faite que par des équipes entrainées et formées. C’est aussi pour cela qu’Azure Site Recovery offre toutes les fonctionnalités pour documenter & orchestrer ces opérations. ASR permet aussi de tester son PRA dans des environnements isolés de la production et ça c’est un vrai plus pour valider son PRA sans risques.

Dans les prochains articles de cette série, je vous expliquerai en mode pas à pas comment protéger vos machines virtuelles Hyper-V dans Azure Site Recovery.

Vous êtes professionnel et légitimement vous vous posez des questions sur le Cloud, Microsoft Azure, Hyper-V, Windows Server, l’évolution du datacenter vers un cloud privé ou hybride, la gestion des périphériques mobiles en entreprise alors pour en savoir plus, n’hésitez pas à suivre les sessions gratuites de formation de la Microsoft Virtual Academy : https://aka.ms/mvafr

Pour évaluer gratuitement Microsoft Azure : https://aka.ms/jeTesteAzure

- Stanislas Quastana -