Transférer des données vers et depuis Azure

Il existe plusieurs manières de transférer des données vers et à partir d’Azure, en fonction des besoins.

Transfert physique

Il est intéressant d’utiliser du matériel physique pour transférer des données vers Azure si :

  • Votre réseau est lent ou peu fiable.
  • Obtenir plus de bande passante pour le réseau est un coût prohibitif.
  • Les stratégies de sécurité ou d'organisation n'autorisent pas les connexions sortantes lorsqu'il s'agit de données sensibles.

Si votre principale préoccupation est le temps nécessaire au transfert de vos données, vous pouvez effectuer un test pour vérifier si le transfert par le réseau est plus lent que le transport physique.

Il existe deux moyens de transporter physiquement les données vers Azure :

Service Azure Import/Export

Le service Azure Import/Export permet de transférer en toute sécurité de gros volumes de données vers le Stockage Blob Azure ou Azure Files en expédiant des disques durs ou des SSD SATA vers un centre de données Azure. Vous pouvez également utiliser ce service pour transférer des données du Stockage Azure vers des disques durs et vous faire expédier ces disques pour les charger sur place.

Azure Data Box

Azure Data Box est une appliance fournie par Microsoft qui fonctionne à peu près comme le service Import/Export. Avec Data Box, Microsoft vous envoie un appareil de transfert propriétaire, sécurisé et inviolable et gère la logistique de bout en bout, que vous pouvez suivre via le portail. L’un des avantages du service Data Box est sa facilité d’utilisation. Vous n’avez pas besoin d’acheter plusieurs disques durs, de les préparer et de transférer des fichiers dessus. Data Box est pris en charge par de nombreux partenaires Azure de premier plan afin de faciliter l’utilisation du transport hors connexion vers le cloud à partir de leurs produits.

API et outils en ligne de commande

Choisissez ces solutions si vous souhaitez transférer les données par script et par programmation :

  • Azure CLI est un outil multiplateforme permettant de gérer les services Azure et de charger des données sur le Stockage.

  • AzCopy. Utilisez AzCopy dans une interface de ligne de commande Windows ou Linux pour copier facilement des données vers et à partir du Stockage Blob Azure, du Stockage Fichier Azure et du Stockage Table Azure avec des performances optimales. Il prend en charge la concurrence et le parallélisme, ainsi que la possibilité de reprendre les opérations de copie après une interruption. Vous pouvez également utiliser AzCopy pour copier des données d'AWS vers Azure. Pour un accès par programme, la bibliothèque Mouvement de données du Stockage Microsoft Azure est l’infrastructure de base d’AzCopy. Elle est fournie en tant que bibliothèque .NET Core.

  • Avec PowerShell, l’applet de commande PowerShell Start-AzureStorageBlobCopy est une option pour les administrateurs Windows qui sont habitués à PowerShell.

  • AdlCopy vous permet de copier des données du Stockage Blob vers Azure Data Lake Storage. Il peut également servir à copier des données entre deux comptes Data Lake Storage. Cependant, il ne peut pas être utilisé pour copier des données de Data Lake Storage vers le Stockage Blob.

  • Distcp est utilisé pour copier des données vers et depuis un stockage en cluster HDInsight (WASB) dans un compte Data Lake Storage.

  • Sqoop est un projet Apache qui fait partie de l’écosystème Hadoop. Il est préinstallé sur tous les clusters HDInsight. Il permet le transfert de données entre un cluster HDInsight et des bases de données relationnelles comme SQL, Oracle, MySQL, etc. Sqoop est une collection d’outils connexes qui comprend notamment des outils d’importation et d’exportation. Il fonctionne avec des clusters HDInsight en utilisant le Stockage Blob ou le stockage attaché Data Lake Storage.

  • PolyBase est une technologie qui accède aux données extérieures à la base de données avec le langage T-SQL. Dans SQL Server 2016, elle permet d’exécuter des requêtes sur des données externes dans Hadoop ou d’importer ou exporter des données à partir du Stockage Blob. Dans Azure Synapse Analytics, vous pouvez importer ou exporter des données à partir du Stockage Blob et de Data Lake Storage. Actuellement, PolyBase est le moyen le plus rapide d'importer des données dans Azure Synapse Analytics.

  • Utilisez la ligne de commande Hadoop lorsque vous disposez de données qui résident sur un nœud principal de cluster HDInsight. Vous pouvez utiliser la commande hadoop -copyFromLocal pour copier ces données sur le stockage attaché de votre cluster, comme le Stockage Blob ou Data Lake Storage. Pour pouvoir utiliser la commande Hadoop, vous devez d'abord vous connecter au nœud principal. Vous pourrez alors charger un fichier dans le stockage.

Interface graphique

Envisagez les options suivantes si vous ne transférez que quelques fichiers ou objets de données et que vous n'avez pas besoin d'automatiser le processus.

  • L’Explorateur Stockage Azure est un outil multiplateforme qui vous permet de gérer le contenu de vos comptes de stockage Azure. Avec lui, vous pouvez charger, télécharger et gérer des objets blob, des fichiers, des files d’attente, des tables et des entités Azure Cosmos DB. Utilisez-le avec le Stockage Blob pour gérer des objets blob et des dossiers, et pour charger et télécharger des objets blob entre votre système de fichiers local et le Stockage Blob, ou entre deux comptes de stockage.

  • Portail Azure. Le Stockage Blob et Data Lake Storage offrent tous deux une interface web pour explorer les fichiers et en charger de nouveaux. C’est une bonne option si vous ne voulez pas installer d’outils ni lancer de commandes pour explorer rapidement vos fichiers, ou si vous voulez charger quelques nouveaux fichiers.

Synchronisation des données et pipelines

  • Azure Data Factory est un service managé qui convient parfaitement au transfert régulier de fichiers entre plusieurs services Azure, systèmes locaux, ou une combinaison des deux. Avec Azure Data Factory, vous pouvez créer et planifier des workflows pilotés par les données, (appelés pipelines), qui peuvent ingérer des données provenant de magasins de données disparates. Data Factory peut traiter et transformer les données en utilisant des services de calcul comme Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics et Azure Machine Learning. Vous pouvez créer des workflows pilotés par les données pour orchestrer et automatiser le déplacement et la transformation des données.

  • Les pipelines et les activités dans Data Factory et Azure Synapse Analytics peuvent être utilisés pour construire des workflows pilotés par les données de bout en bout pour vos scénarios de déplacement et de traitement des données. De plus, le runtime d’intégration Azure Data Factory est utilisé pour fournir des fonctionnalités d'intégration de données dans différents environnements réseau.

  • Azure Data Box Gateway transfère les données vers et depuis Azure, mais il s’agit d’une appliance virtuelle et non d’un disque dur. Les machines virtuelles résidant dans votre réseau local écrivent des données dans Data Box Gateway à l’aide des protocoles NFS et SMB. L’appareil transfère ensuite vos données vers Azure.

Critères de sélection principaux

Dans les scénarios de transfert de données, choisissez le système adapté à vos besoins en répondant à ces questions :

  • Avez-vous besoin de transférer de grandes quantités de données, pour lesquelles une connexion Internet prendrait trop de temps, serait peu fiable ou trop chère ? Si oui, optez pour le transfert physique.

  • Préférez-vous écrire un script pour vos tâches de transfert de données, afin qu'elles soient réutilisables ? Si oui, sélectionnez l’une des solutions en ligne de commande ou Data Factory.

  • Vous devez transférer une grande quantité de données sur une connexion réseau ? Si oui, sélectionnez une solution optimisée pour le Big Data.

  • Avez-vous besoin de transférer des données vers ou à partir d’une base de données relationnelle ? Si oui, choisissez une solution qui prend en charge une ou plusieurs bases de données relationnelles. Certaines de ces options nécessitent également un cluster Hadoop.

  • Avez-vous besoin d’une orchestration automatisée du workflow ou du pipeline de données ? Si oui, pensez à Data Factory.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Transfert physique

Fonctionnalité Service d’importation/exportation Data Box
Facteur de forme Disques durs ou SSD SATA internes Appliance matérielle unique, sécurisée et inviolable
Microsoft gère la logistique d’expédition Non Oui
S’intègre avec les produits partenaires Non Oui
Appliance personnalisée Non Oui

Outils de ligne de commande

Hadoop/HDInsight :

Fonctionnalité Distcp Sqoop Interface CLI Hadoop
Optimisé pour le Big Data Oui Oui Oui
Copie vers une base de données relationnelle Non Oui Non
Copie à partir d’une base de données relationnelle Non Oui Non
Copie vers le Stockage Blob Oui Oui Oui
Copie à partir du Stockage Blob Oui Oui Non
Copie vers Data Lake Storage Oui Oui Oui
Copie à partir de Data Lake Storage Oui Oui Non

Autres :

Fonctionnalité Azure CLI AzCopy PowerShell AdlCopy PolyBase
Plateformes compatibles Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Optimisé pour le Big Data Non Oui Non Oui 1 Oui 2
Copie vers une base de données relationnelle Non Non Non Non Oui
Copie à partir d’une base de données relationnelle Non Non Non Non Oui
Copie vers le Stockage Blob Oui Oui Oui Non Oui
Copie à partir du Stockage Blob Oui Oui Oui Oui Oui
Copie vers Data Lake Storage Non Oui Oui Oui Oui
Copie à partir de Data Lake Storage Non Non Oui Oui Oui

[1] AdlCopy est optimisé pour le transfert de données volumineuses lorsqu’il est utilisé avec un compte Data Lake Analytics.

[2] Vous pouvez améliorer les performances de PolyBase en envoyant (push) les calculs sur Hadoop et en utilisant des groupes de scale-out PolyBase pour permettre le transfert de données en parallèle entre les instances SQL Server et les nœuds Hadoop.

Interfaces graphiques, synchronisation des données et pipelines de données

Fonctionnalité Explorateur de stockage Azure Portail Azure* Data Factory Data Box Gateway
Optimisé pour le Big Data Non Non Oui Oui
Copie vers une base de données relationnelle Non Non Oui Non
Copie à partir d’une base de données relationnelle Non Non Oui Non
Copie vers le Stockage Blob Oui Non Oui Oui
Copie à partir du Stockage Blob Oui Non Oui Non
Copie vers Data Lake Storage Non Non Oui Non
Copie à partir de Data Lake Storage Non Non Oui Non
Chargement vers le Stockage Blob Oui Oui Oui Oui
Chargement vers Data Lake Storage Oui Oui Oui Oui
Orchestration des transferts de données Non Non Oui Non
Transformations de données personnalisées Non Non Oui Non
Modèle de tarification Gratuit Gratuit Paiement à l’utilisation Payer par unité

* Le portail Azure représente dans ce cas les outils web d’exploration pour le Stockage Blob et Data Lake Storage.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes