Choisir une technologie d’orchestration de pipeline de données dans Azure

2025-01-01

La plupart des solutions Big Data se composent d’opérations répétées de traitement des données, encapsulées dans les flux de travail. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces flux de travail. Un orchestrateur peut planifier des travaux, exécuter des flux de travail et coordonner les dépendances entre les tâches.

Quelles sont vos options d’orchestration de pipeline de données ?

Dans Azure, les services et outils suivants répondent aux exigences principales pour l’orchestration de pipeline, le flux de contrôle et le déplacement des données :

Azure Data Factory.
Oozie sur HDInsight
SQL Server Integration Services (SSIS)

Ces services et outils peuvent être utilisés indépendamment les uns des autres, ou utilisés ensemble pour créer une solution hybride. Par exemple, le runtime d’intégration (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure managé. Bien qu’il y ait un chevauchement entre ces services, il existe quelques différences clés.

Critères de sélection clés

Pour limiter les choix, commencez par répondre à ces questions :

Avez-vous besoin de fonctionnalités Big Data pour déplacer et transformer vos données ? Cela signifie généralement plusieurs gigaoctets à des téraoctets de données. Si oui, limitez vos options à celles qui conviennent le mieux au Big Data.
Avez-vous besoin d’un service managé qui peut fonctionner à grande échelle ? Si c’est le cas, sélectionnez l’un des services cloud qui ne sont pas limités par votre puissance de traitement locale.
Certaines de vos sources de données se trouvent-elles localement ? Si c’est le cas, recherchez des options qui peuvent fonctionner à la fois avec des sources de données cloud et locales ou des destinations.
Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Si c’est le cas, choisissez une option qui prend en charge les requêtes Hive.

Matrice de capacité

Les tableaux suivants résument les principales différences de fonctionnalités.

Fonctionnalités générales

Capacité	Azure Data Factory.	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Adresses IP gérées	Oui	Non	Oui
Basé sur le cloud	Oui	Non (Local)	Oui
Prérequis	Abonnement Azure	Serveur SQL	Abonnement Azure, cluster HDInsight
Outils de gestion	Portail Azure, PowerShell, CLI, Kit de développement logiciel (SDK) .NET	SSMS, PowerShell	Interpréteur de commandes Bash, API REST Oozie, interface utilisateur web Oozie
Tarification	Paiement par utilisation	Licences / paiement pour les fonctionnalités	Aucun frais supplémentaire en plus de l’exécution du cluster HDInsight

Fonctionnalités de pipeline

Capacité	Azure Data Factory.	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Copier des données	Oui	Oui	Oui
Transformations personnalisées	Oui	Oui	Oui (travaux MapReduce, Pig et Hive)
Notation d’Azure Machine Learning	Oui	Oui (avec script)	Non
HDInsight à la demande	Oui	Non	Non
Azure Batch	Oui	Non	Non
Cochon, Ruche, MapReduce	Oui	Non	Oui
Étincelle	Oui	Non	Non
Exécuter le package SSIS	Oui	Oui	Non
Flux de contrôle	Oui	Oui	Oui
Accéder aux données locales	Oui	Oui	Non

Fonctionnalités d’extensibilité

Capacité	Azure Data Factory.	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Monter en puissance	Oui	Non	Non
Scale-out	Oui	Non	Oui (via l’ajout de nœuds de travail en cluster)
Optimisé pour le Big Data	Oui	Non	Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Zoiner Tejada | PDG et architecte

Étapes suivantes

DataOps pour l’entrepôt de données moderne