Migrer les données Hadoop locales vers Azure Data Lake Storage Gen2 en utilisant WANdisco LiveData Platform for Azure

WANdisco LiveData Platform for Azure migre des pétaoctets de données Hadoop locales vers des systèmes de fichiers Azure Data Lake Storage Gen2 sans interrompre les opérations de données ni nécessiter des temps d’arrêt. Les vérifications continues de la plateforme empêchent la perte de données tout en conservant la cohérence aux deux extrémités de la transférence, même lorsqu’elle subit une modification.

La plateforme se compose de deux services. LiveData Migrator for Azure migre des données faisant l’objet d’une utilisation active depuis des environnements locaux vers le stockage Azure, et LiveData Plane for Azure garantit que toutes les données modifiées ou ingérées sont répliquées de façon cohérente.

Illustration d’une vue d’ensemble de Live Data Platform

Gérez les deux services à l’aide du portail Azure et d’Azure CLI. Chaque service suit le même modèle de facturation de paiement à l’utilisation limité que tous les autres services Azure : la consommation des données dans LiveData Platform for Azure apparaîtra sur la facture Azure mensuelle, qui fournira les métriques d’utilisation.

Contrairement à une migration des données effectuée hors connexion en copiant des informations statiques dans Azure Data Box ou en utilisant des outils Hadoop comme DistCp, vous pouvez conserver un fonctionnement entièrement opérationnel de vos systèmes métier pendant la migration en ligne avec WANdisco LiveData for Azure. Gardez vos environnements Big Data opérationnels même lors du déplacement de leurs données vers Azure.

Avantages clés de WANdisco LiveData Platform for Azure

Le moteur de consensus à compatibilité réseau à grande échelle de WANdisco LiveData Platform for Azure permet la cohérence des données et assure la réplication des données en temps réel à grande échelle. Regardez la vidéo suivante pour plus d’informations :

Les avantages clés de la plateforme sont les suivants :

  • Précision des données : la validation de bout en bout des données empêche la perte de données et garantit que les données transférées sont adaptées à l’utilisation.

  • Cohérence des données : conservez les volumes de données automatiquement cohérents entre les environnements même lorsqu’ils subissent une modification continue.

  • Efficacité des données : transférez continuellement des volumes de données importants avec un contrôle total de la consommation de bande passante.

  • Élimination des temps d’arrêt : créez, modifiez, lisez et supprimez librement des données avec d’autres applications pendant la migration, sans avoir à perturber les opérations de l’entreprise pendant la transférence des données vers Azure. Continuez à faire fonctionner les applications, l’infrastructure d’analytique, les travaux d’ingestion et d’autres traitements.

  • Utilisation simple : utilisez l’intégration Azure de la plateforme pour créer, configurer, planifier et suivre la progression des migrations automatisées. En outre, configurez la réplication sélective des données, les métadonnées Hive, la sécurité des données et la confidentialité en fonction des besoins.

Fonctionnalités clés de WANdisco LiveData Platform for Azure

Les fonctionnalités clés de la plateforme sont les suivantes :

  • Migration des métadonnées : en plus des données HDFS, migrez les métadonnées (à partir de Hive et d’autres stockages) avec LiveData Migrator for Azure.

  • Transfert planifié : utilisez LiveData Migrator for Azure pour contrôler et automatiser le moment où le transfert de données démarre, ce qui évite d’avoir à migrer manuellement les modifications apportées aux données.

  • Kerberos :LiveData Migrator for Azure prend en charge les clusters Kerberos.

  • Modèles d’exclusion : créez des règles dans LiveData Migrator for Azure pour empêcher la migration de certaines tailles de fichiers ou de certains noms de fichiers (définis à l’aide de modèles glob) vers votre stockage cible. Créez des modèles d’exclusion dans le portail Azure ou avec l’interface CLI, et appliquez-les à un nombre quelconque de migrations.

  • Mappages de chemin d’accès : définissez d’autres chemins d’accès cibles pour des systèmes de fichiers cibles spécifiques, qui déplacent automatiquement les données transférées vers les répertoires que vous spécifiez.

  • Gestion de la bande passante : configurez la quantité maximale de bande passante réseau que LiveData Migrator for Azure peut utiliser pour empêcher la consommation de bande passante.

  • Exclusions : définissez des requêtes de modèle qui empêchent la migration de fichiers et de répertoires qui répondent aux critères, ce qui vous permet de migrer des données de votre système source de manière sélective.

  • Métriques : affichez des détails sur le transfert de données dans LiveData Migrator for Azure, telles que les fichiers transférés au fil du temps, les chemins d’accès exclus, les éléments dont le transfert a échoué, etc.

    LiveData

Migrer le Big Data plus rapidement sans risque

Le premier service inclus dans WANdisco LiveData Platform for Azure est LiveData Migrator for Azure qui migre des données depuis des environnements locaux vers Stockage Azure. Une fois que vous avez déployé LiveData Migrator sur votre cluster Hadoop local, il créera automatiquement la meilleure configuration pour votre système de fichiers. À partir de là, fournissez les détails Kerberos pour le système. LiveData Migrator for Azure est ensuite prêt à migrer les données vers Stockage Azure.

Architecture de LiveData Migrator for Azure

Avant de commencer avec LiveData Migrator for Azure, passez en revue les prérequis.

Pour effectuer une migration :

  1. Dans l’interface de ligne de commande Azure :

    • Inscrivez-vous pour le fournisseur de ressources WANdisco dans l’Azure CLI en exécutant az provider register --namespace Wandisco.Fusion --consent-to-permissions.
    • Acceptez les conditions de facturation limitées de LiveData Platform en exécutant az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>.
  2. Déployez l’instance LiveData Migrator à partir du portail Azure sur votre cluster Hadoop local. (Vous n’avez pas besoin d’apporter des modifications au cluster ni de le redémarrer.)

    Création d’une instance LiveData Migrator

    Notes

    WANdisco LiveData Migrator for Azure offre la possibilité de créer un cluster de test Hadoop.

  3. Configurez les détails Kerberos, le cas échéant.

  4. Définissez le compte de stockage cible Azure Data Lake Storage Gen2.

    Création d’une cible LiveData Migrator

  5. Définissez l’emplacement des données que vous voulez migrer, par exemple /user/hive/warehouse.

    Création d’une migration LiveData Migrator

  6. Démarrer la migration.

Surveillez la progression de la migration via les outils Azure standard, y compris l’Azure CLI et le portail Azure.

Répliquer les données de manière bidirectionnelle en cas de modification active avec LiveData Plane for Azure

Le deuxième service inclus dans LiveData Platform est LiveData Plane for Azure. LiveData Plane utilise le moteur de coordination de WANdisco pour assurer la cohérence des données entre plusieurs clusters Hadoop locaux et Stockage Azure en appliquant intelligemment des modifications aux données sur tous les systèmes, éliminant ainsi le risque de conflits de données à différents points d’utilisation.

Architecture de LiveData Plane for Azure

Après la migration initiale, assurez la cohérence de vos données avec LiveData Plane for Azure :

  1. Déployez LiveData Plane for Azure localement et dans Azure, en commençant à partir du portail Azure. Aucune modification des applications n’est nécessaire.

  2. Configurez des règles de réplication qui couvrent les emplacements de ces données que vous voulez conserver cohérentes, par exemple : /user/contoso/sales/region/WA.

  3. Exécutez les applications qui accèdent aux données et les modifient dans les deux emplacements, selon vos besoins.

LiveData Plane for Azure réplique régulièrement les modifications de données dans tous les environnements, sans impact significatif sur les performances des opérations ou des applications du cluster.

Version d'évaluation ou essai

À partir de LiveData Platform pour la page Marketplace d’Azure, vous disposez de deux options :

  • Le bouton Obtenir maintenant lance le service dans votre abonnement. À partir de là, vous pouvez utiliser votre propre cluster Hadoop ou le cluster d’essai de WANdisco.

  • Sélectionnez Version d'évaluation pour tester LiveData Migrator for Azure dans un environnement préconfiguré et hébergé pour vous. Cela vous permet d’essayer LiveData Migrator for Azure avant de l’ajouter à votre abonnement, sans coût ni risque pour vos données.

Étapes suivantes

Voir aussi