Choisir une technologie d’orchestration de pipeline de données dans Azure
La plupart des solutions de Big Data se composent d’opérations de traitement des données répétées, encapsulées dans des workflows. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces workflows. Un orchestrateur peut planifier des travaux, exécuter des workflows et coordonner les dépendances entre des tâches.
Quelles sont vos options d’orchestration de pipeline de données ?
Dans Azure, les outils et services suivants répondent aux exigences principales d’orchestration de pipeline, de flux de contrôle et de déplacement des données :
Ces services et outils peuvent être utilisés indépendamment l’un de l’autre ou conjointement pour créer une solution hybride. Par exemple, Integration Runtime (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure géré. S’il existe certains recoupements des fonctionnalités entre ces services, il existe aussi quelques différences importantes.
Critères de sélection principaux
Pour restreindre les choix, commencez par répondre aux questions suivantes :
Avez-vous besoin des fonctionnalités de Big Data pour déplacer et transformer vos données ? Généralement, cela signifie des gigaoctets à des téraoctets de données. Dans ce cas, limitez vos options à celles qui sont le mieux adaptées au Big Data.
Avez-vous besoin d’un service géré qui puisse fonctionner à l’échelle ? Dans ce cas, sélectionnez un des services cloud non limité par votre puissance de traitement local.
Certaines de vos données sources sont-elles locales ? Dans l’affirmative, recherchez les options qui peuvent fonctionner avec les sources de données ou les destinations locales et sur cloud.
Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Dans ce cas, choisissez une option qui prend en charge les requêtes Hive.
Matrice des fonctionnalités
Les tableaux suivants résument les principales différences entre les fonctionnalités.
Fonctionnalités générales
Fonctionnalité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Adresses IP gérées | Oui | No | Oui |
Sur le cloud | Oui | Non (Local) | Oui |
Prérequis | Abonnement Azure | SQL Server | Abonnement Azure, cluster HDInsight |
Outils d’administration | Portail Azure, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Interpréteur de commandes Bash, API REST Oozie, IU Web Oozie |
Tarifs | Paiement à l’utilisation | Licences / paiement des fonctionnalités | Aucun frais supplémentaire sur l’exécution du cluster HDInsight |
Fonctionnalités du pipeline
Fonctionnalité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Copier des données | Oui | Oui | Oui |
Transformations personnalisées | Oui | Oui | Oui (travaux MapReduce, Pig et Hive) |
Notation d’Azure Machine Learning | Oui | Oui (avec des scripts) | Non |
HDInsight à la demande | Oui | No | Non |
Azure Batch | Oui | No | Non |
Pig, Hive, MapReduce | Oui | No | Oui |
Spark | Oui | No | Non |
Exécuter le Package SSIS | Oui | Oui | Non |
Flux de contrôle | Oui | Oui | Oui |
Accès aux données locales | Oui | Oui | Non |
Fonctionnalités d’évolutivité
Fonctionnalité | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie sur HDInsight |
---|---|---|---|
Monter en puissance | Oui | No | Non |
Scale-out | Oui | Non | Oui (via l’ajout de nœuds de travail en cluster) |
Optimisé pour le Big Data | Oui | No | Oui |
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Zoiner Tejada | CEO et Architecte
Étapes suivantes
- Pipelines et activités dans Azure Data Factory et Azure Synapse Analytics
- Provisionner le runtime d’intégration Azure-SSIS dans Azure Data Factory
- Oozie sur HDInsight