Vue d’ensemble de la migration de bandes stockage Azure
Cet article se concentre sur les migrations de bandes. Il vise à simplifier, fournir des conseils et des considérations pour s’exécuter via une migration réussie des données stockées sur différents supports sur bande vers les services de stockage Azure.
Vue d’ensemble
La bande stocke une grande partie des données du monde, et reste l’un des types dominants de supports de stockage. Les supports de bande existent depuis des décennies et sont encore largement utilisés avec des centaines d’exaoctets de nouvelles bandes livrées chaque année.
Les bandes sont un moyen idéal pour stocker des données froides. Ils sont rapides en lecture séquentielle, mais les étapes nécessitant des mouvements mécaniques (comme le chargement et le déchargement de bandes, les recherches de bandes, etc.) sont plus lents. Cela rend les bandes inutilisables pour l’accès traditionnel, aléatoire et est la principale raison pour laquelle même aujourd’hui les données stockées sur des bandes sont rarement utilisées. En outre, la bande est un support magnétique qui nécessite une manipulation spéciale. Ils sont sensibles à l’environnement, en particulier la température et l’humidité. S’ils sont conservés dans leur gamme d’environnement d’exploitation, ils peuvent atteindre une durabilité élevée et un bon taux de réussite de restauration. Toutefois, lorsqu’elles sont conservées dans un environnement inutilisable, la détérioration se produit souvent et rend la bande illisible.
Les grandes parties des bandes stockent des données sombres (données créées et stockées, mais qui n’ont pas été utilisées à des fins quelconques). Les données sombres n’apportent aucune valeur au propriétaire des données. Avec l’augmentation de la capacité d’IA et de l’accessibilité, la tendance change. Les clients examinent comment les données sombres peuvent les aider à accroître l’efficacité, à ouvrir de nouveaux flux de revenus ou à augmenter leur avantage concurrentiel. Pour tirer parti des données sombres, de nombreuses organisations envisagent de migrer les données de bandes vers le stockage cloud. Le stockage cloud offre un moyen simple d’analyser les données, d’extraire de la valeur métier (avec des services tels que l’IA, Machine Learning, Recherche Azure, etc.) ou de réduire les coûts en tirant parti du stockage d’archivage pour la rétention à long terme.
Voici quelques-unes des principales raisons pour lesquelles nous constatons une augmentation de la bande vers les migrations cloud :
- Extraction de la valeur métier à partir de données sombres,
- Réduisez l’effort nécessaire pour gérer les données avec une rétention à long terme,
- Évitez le processus de migration d’une génération de bande vers une autre,
- Réduire le risque de perte de données, en particulier pour les générations plus anciennes de bandes,
- Remplacer les installations de stockage sur bande hors site,
- Simplifier les processus de récupération d’urgence,
- Application d’outils modernes tels que l’IA et ML aux données historiques.
À propos de l’installation
Avant le démarrage d’un processus de migration sur bande, les options doivent être soigneusement prises en compte. La première considération consiste à décider qui exécute la migration. Deux options sont couramment utilisées :
- Client a effectué la migration où le client exécute la migration de bout en bout,
- Partenaire de migration de bandes où le client expédie les bandes au partenaire et où le partenaire exécute le processus de migration.
Approche | Avantages | Inconvénients |
---|---|---|
Client a effectué une migration | - Les données ne quittent jamais le site - Aucune logistique pour les bandes d’expédition |
- Nécessite des ressources matérielles - Ajoute davantage de travail au personnel - Nécessite des connaissances spécifiques dans la gestion des bandes - Coûts inconnus possibles |
Partenaire de migration de bandes | - Tarification simple et coût connu en amont (payé par bande) - Aucun impact sur la production - Aucun impact sur le personnel |
- Nécessite une logistique pour les bandes d’expédition - Considérations relatives à la sécurité requises en raison de bandes d’expédition - Plusieurs copies nécessaires à la disponibilité des données pendant la migration |
Plusieurs considérations majeures peuvent facilement guider notre décision sur qui peut exécuter la migration, le client ou le partenaire.
Ressources
Les ressources sont la partie la plus critique du processus de migration de bande, et nous les répartissons dans les catégories suivantes :
Catégorie | Notes |
---|---|
Personnes | - Un ensemble spécifique de compétences est requis - Le processus est gourmand en main-d’œuvre |
Matériel | - Différentes générations de bandes nécessitent un type de matériel différent - La vitesse de la migration est proportionnelle aux lecteurs disponibles et à la bande passante réseau |
Logiciels | - L’accès aux logiciels qui ont créé les données est nécessaire - L’accès aux clés de chiffrement est nécessaire |
Le matériel est généralement la partie la plus difficile. Si nous migrez des générations de bandes existantes, le matériel est disponible, mais utilisé dans le cadre de la production existante. Mais pour les générations de bandes plus anciennes, le matériel est souvent de fin de vie, et il est plus difficile d’acquérir. Avec l’ancienne génération de bandes, l’utilisation d’un partenaire de migration de bande est une option préférée et plus simple. Lorsque le matériel de production est utilisé pour les migrations, une planification minutieuse est nécessaire pour vous assurer que la migration n’interfère pas avec les charges de travail de production. Ici, nous pouvons appliquer trois modèles différents :
- Utiliser du matériel dédié pour la migration: modèle de migration le plus simple, il est facile de planifier et de planifier sans impact sur la production. Il ajoute des coûts pour acquérir le matériel (s’il n’est pas déjà disponible) et provoque une faible utilisation du matériel après la migration.
- Exécutez la migration en dehors des heures d'ouverture sur le matériel de production: modèle de migration sans impact sur la production. Nécessite une planification, une exécution et des employés complexes travaillant hors heures. Possible uniquement si le matériel de production n'est pas utilisé 24h/24 et 7j/7.
- Exécuter simultanément la production et la migration: modèle de migration le moins préféré car il peut facilement avoir un impact sur la production. Ce modèle réduit le matériel disponible pour la production, nécessite une planification et une planification complexes. Si ce modèle est utilisé, les processus autour de la réduction de l’impact sur la production sont essentiels pour maintenir la chronologie de la migration sous contrôle. Ce modèle est recommandé uniquement lorsque le matériel de production a une faible utilisation.
Options de transfert de données
Une fois que les données sont lues à partir de bandes, elles doivent être déplacées vers stockage Azure. Les données peuvent être déplacées à l’aide d’un réseau ou d’appareils hors connexion comme Azure Data Box. Voici quelques-uns des paramètres qui affectent le choix des options de transfert de données :
- Bande passante réseau disponible
- Chronologie requise pour terminer la migration
- Fréquence des modifications de données
En savoir plus sur les conseils de sélection de l’option optimale ici. Le transfert réseau est une option plus simple et préférée. La combinaison de méthodes réseau et hors connexion est également possible, mais nécessite davantage de planification pour s’assurer que les données migrées ne se chevauchent pas.
S’il n’existe aucune ressource disponible pour effectuer la migration, quel que soit le type de ressource, notre seule option consiste à utiliser un partenaire de migration sur bande. Dans ce cas, nous pouvons choisir entre deux options :
- Migration effectuée sur le site du client: le partenaire de migration de bande envoie le matériel, embauche des personnes et effectue le travail sur l’emplacement du client. Le client doit fournir l’accès aux bandes, à l’espace dédié pour l’équipement, aux connexions réseau et à l’accès au service Stockage Azure. Le partenaire est responsable de toutes les autres activités.
- Migration effectuée sur le site du partenaire: le client envoie les bandes au partenaire et fournit l’accès au service Stockage Azure. Le partenaire de migration de bande effectue tout le travail pour migrer les données des bandes vers stockage Azure.
La deuxième option est plus facile et plus couramment utilisée. Les partenaires de migration de bande disposent d’installations conçues et équipées pour effectuer la migration de bandes à grande échelle. Cette option réduit également le risque et la chronologie, car les partenaires disposent de ressources matérielles supplémentaires. L’exécution de la migration sur le site du client est utilisée uniquement lorsque les problèmes de sécurité et de confidentialité ne permettent pas au client d’expédier les bandes au partenaire.
Plusieurs partenaires peuvent effectuer des migrations de bandes vers Azure. La liste complète des partenaires est disponible sur l'importation de médias hors ligne.
Voici un organigramme simple pour faciliter le processus de sélection.
Format de données
Le format de données a un impact important sur la conception de la migration et est l’élément essentiel à prendre en compte pour l’utilisation future des données. Les données peuvent être stockées dans un format propriétaire ou natif. Les formats propriétaires sont généralement stockés sous forme de bandes virtuelles. Le format natif nécessite la restauration de fichiers à partir de bandes et leur stockage en tant que fichiers ou objets.
Modèle | Avantages | Inconvénients |
---|---|---|
Bandes virtuelles | - Migration plus facile et plus rapide - Peut recréer un média de bande identique comme l’original - Il n’est pas nécessaire d’avoir accès au logiciel d’origine pour écrire les données |
- Nécessite la maintenance de l’inventaire des bandes virtuelles - Les données stockées dans un format dépendant de l’application nécessitent un logiciel d’origine pour restaurer les données - Données non accessibles par les services Azure (IA/ML) sans restauration |
Fichiers natifs | - Fichiers accessibles par n’importe quelle application et service (IA/ML) - Possibilité de monétiser les données - Il n’est pas nécessaire d’avoir accès au logiciel d’origine pour les restaurations |
- Migration plus complexe - Nécessite l’accès au logiciel d’origine pour écrire les données |
Le principal critère pour décider du format est la façon dont nous prévoyons d’utiliser les données. Si les données sont migrées uniquement pour la rétention à long terme, les bandes virtuelles sont un excellent choix. Dans tout autre cas, le stockage de données au format natif est une option préférée. Il permet une utilisation simple des données à l’avenir et ouvre de nombreuses possibilités avec l’analyse des données.
Processus de migration
Une fois que nous avons pris des décisions sur l’exécution de la migration et le format de données préféré, nous pouvons commencer par la migration. La migration passe par plusieurs phases.
Phase d’informations
La phase d’information est essentielle pour collecter les exigences clés. Collecte de guides d’informations pour la conception et la planification correctes. Même si certaines informations peuvent être mises à jour dans les phases ultérieures, fournir des informations précises définit la scène et éviter la nécessité d’apporter d’énormes modifications au processus. Voici quelques-unes des questions clés auxquelles cette phase doit répondre :
- Quel type de bandes doivent être migrées (par exemple, LTO3, LTO6, 3592JC, etc.) ?
- Quelle quantité de bandes pour chaque modèle à migrer (par exemple, 100xLTO3, 200xLTO6, etc.) ?
- Quel logiciel a été utilisé pour écrire les données sur bandes, est-ce que ce logiciel est toujours disponible ?
- Quel est le format utilisé pour écrire les données sur bandes, le format ouvert ou propriétaire est-il appliqué ?
- Le chiffrement a-t-il été utilisé et, si oui, quelle est l’option la plus sécurisée pour échanger des clés de chiffrement ?
- Qu’est-ce que la région cible ?
- Quel service de stockage est utilisé ?
- Quelles exigences réglementaires sont critiques (HIPAA, GDPR, etc.) ? La chaîne de garde est-elle obligatoire ?
- Quelle est l’échéance de la migration ? Existe-t-il des jalons critiques ?
- Combien de bande passante réseau est disponible pour la migration ?
- Où sont stockées physiquement les bandes et peuvent-elles être livrées ?
- Avez-vous déjà des valeurs de hachage pour tous les fichiers ? Si oui, quel algorithme de hachage est utilisé ?
- Les bandes sont-elles nécessaires après la migration ?
- Comment maintenir la température et l’humidité des bandes pendant la migration/ le transport ?
- Qui sont les principales parties prenantes ?
Phase de préparation
Une fois que nous avons collecté des informations de base, nous pouvons préparer la migration. La phase de préparation peut inclure de nombreuses étapes différentes, mais il existe certaines étapes courantes que la plupart des migrations passent par :
L'analyse des données fournit des informations sur les données qui doivent être migrées. Les informations sont essentielles pour estimer la rapidité de lecture des données à partir de bandes, ainsi que la quantité de parallélisme que nous devons atteindre pour terminer la migration avec succès avant l’échéance. Elle affecte les estimations sur le matériel requis (bibliothèques, robots, lecteurs). L’analyse des données est effectuée en échantillonnant plusieurs bandes qui représentent le jeu de données à migrer. Les informations courantes que nous recherchons sont les suivantes :
- tailles de fichier,
- quantité de données stockées par bande,
- nombre de fichiers par bande,
- tailles de fichier minimales et maximales,
- types de fichiers.
La qualité des données aide à estimer l'ensemble de données final et unique qui doit être migré. L’un des problèmes les plus courants liés à la migration de bande est la duplication des données. La migration de bande est idéale pour nettoyer les données dupliquées. Ce processus améliore la qualité des données pour une utilisation future, réduit les coûts et la durée de la migration.
La hiérarchisation des données détermine l'ordre dans lequel les données peuvent être migrées. Dans l’idéal, nous voulons obtenir un streaming direct à partir de chaque bande au lieu de lire de manière aléatoire des fichiers à partir de différentes bandes (pour éviter le chargement constant, le déchargement et les recherches). Cette approche atteint le débit le plus élevé possible et est toujours le chemin de migration le plus rapide. La hiérarchisation des données prend les exigences métier et la faisabilité technique pour obtenir les meilleurs résultats.
La conception de la migration comprend tous les aspects techniques de la migration et les informations recueillies pour former un processus de migration final. Il s’agit d’un document écrit qui devient source de vérité pour les étapes restantes. Il doit contenir au moins :
- effacer le processus de migration et l’échéance de migration,
- matériel et configuration requise pour le personnel,
- infrastructure et conception réseau,
- considérations relatives à la sécurité,
- comment traiter des bandes non lisibles,
- rôles et responsabilités, etc.
Phase de migration
Une fois la conception de la migration terminée, nous commençons le processus de migration. Avant de passer à un rythme de migration complet, nous effectuons toujours un test avec un échantillon plus petit. L’objectif du test est de s’assurer que le processus de bout en bout fonctionne. Il nous permet d’apporter des ajustements et d’améliorer le processus. Une fois le test réussi, et nous sommes satisfaits des résultats, nous exécutons la migration. La phase de migration est légèrement différente si nous utilisons des fichiers natifs et des bandes virtuelles. Dans les deux cas, il s’agit d’un processus répétitif qui entoure toutes les bandes et lit leur contenu entier. Cet organigramme montre la phase de migration lors de la migration vers des fichiers natifs.
Validation des données
Pour chaque fichier que nous migrez, nous devons effectuer la validation des données pour vous assurer que les données n’ont pas été endommagées pendant le processus de migration. La validation des données est effectuée en comparant les valeurs de hachage avant la migration et après la migration. Il existe de nombreux types d’algorithmes de hachage qui peuvent être utilisés. Une approche courante consiste à utiliser MD5, car stockage Azure contient un champ de métadonnées prédéfinis Content-MD5 qui peut être rempli pendant la migration. Cette approche permet de vérifier la même valeur MD5 lorsque nous accédons aux données pour valider que les données ne sont pas modifiées ou endommagées. Dans une situation idéale, les données sources contiennent déjà des valeurs de hachage qui peuvent être facilement comparées aux valeurs de hachage après la migration. Si les hachages n’existent pas, ils doivent être calculés avant la migration du fichier. Si les hachages correspondent, le fichier est marqué comme migré. Si ce n’est pas le cas, le fichier est ignoré et migré à nouveau. Parfois, les données sont endommagées sur les bandes sources. Le fait d’avoir les valeurs de hachage d’origine permet d’intercepter ces rares cas. S’ils se produisent, nous pouvons lire les données de la copie secondaire s’il existe. Le processus de validation des données est un composant essentiel pour une conception de migration. Le processus de gestion de la validation ayant échoué doit être défini. La phase de migration est également constamment surveillée pour nous assurer que nous pouvons réagir à une situation imprévisible et l’adapter à celle-ci. La création de rapports réguliers aux principales parties prenantes est importante pour maintenir la migration en cours.
Phase de postmigration
Une fois la migration terminée, il reste encore quelques étapes à prendre en compte avant de clôturer avec succès le projet de migration. Nous devons supprimer le matériel utilisé pour la migration, s’il n’est plus nécessaire. La question la plus importante est la façon de supprimer les bandes. La suppression de bande est un processus en deux étapes. Si les bandes stockent des informations sensibles et confidentielles (et c’est généralement le cas), elles doivent d’abord être démagnétisées. La démagnétisation garantit que toutes les données sont supprimées magnétiquement du support. Après suppression, les bandes doivent être correctement détruites et recyclées. Si nous avons utilisé un partenaire de migration de bande, nous pouvons également laisser le partenaire supprimer en toute sécurité les bandes.