Auswählen einer Datenpipeline-Orchestrierungstechnologie in Azure

2025-04-17

Die meisten Big Data-Lösungen bestehen aus wiederholten Datenverarbeitungsvorgängen, die in Workflows gekapselt sind. Ein Pipeline-Orchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Aufgaben koordinieren.

Was sind Ihre Optionen für die Datenpipeline-Orchestrierung?

In Azure erfüllen die folgenden Dienste und Tools die wichtigsten Anforderungen für pipeline-Orchestrierung, Steuerungsfluss und Datenbewegungen:

Diese Dienste und Tools können unabhängig voneinander verwendet oder zusammen verwendet werden, um eine Hybridlösung zu erstellen. Beispielsweise kann die Integrations-Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Es gibt zwar einige Überschneidungen in der Funktionalität zwischen diesen Diensten, aber es gibt einige wichtige Unterschiede.

Schlüsselauswahlkriterien

Um die Auswahl einzugrenzen, beginnen Sie mit der Beantwortung dieser Fragen:

Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren Ihrer Daten? In der Regel bedeutet dies mehrere Gigabyte bis Terabyte Daten. Wenn ja, schränken Sie Ihre Optionen auf diejenigen ein, die für Big Data am besten geeignet sind.
Benötigen Sie einen verwalteten Service, der in großem Maßstab betrieben werden kann? Wenn ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch Ihre lokale Verarbeitungsleistung beschränkt sind.
Befinden sich einige Ihrer Datenquellen lokal? Wenn ja, suchen Sie nach Optionen, die sowohl mit Cloud- als auch mit lokalen Datenquellen oder Zielen funktionieren können.
Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn ja, wählen Sie eine Option aus, die Hive-Abfragen unterstützt.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Fähigkeit	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie auf HDInsight
Verwaltet	Ja	Nein	Ja
Cloudbasiert	Ja	Nein (lokal)	Ja
Voraussetzung	Azure-Abonnement	SQL Server	Azure-Abonnement, HDInsight-Cluster
Verwaltungstools	Azure-Portal, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Bash-Shell, Oozie-REST-API, Oozie-Web-Benutzeroberfläche
Preisgestaltung	Nutzungsbasierte Bezahlung	Lizenzierung / Bezahlung für Features	Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters)

Pipelinefunktionen

Fähigkeit	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie auf HDInsight
Daten kopieren	Ja	Ja	Ja
Benutzerdefinierte Transformationen	Ja	Ja	Ja (MapReduce-, Pig- und Hive-Jobs)
Azure Machine Learning-Bewertung	Ja	Ja (mit Skripting)	Nein
HDInsight auf Abruf	Ja	Nein	Nein
Azure Batch	Ja	Nein	Nein
Schwein, Bienenstock, MapReduce	Ja	Nein	Ja
Funke	Ja	Nein	Nein
SSIS-Paket ausführen	Ja	Ja	Nein
Kontrollfluss	Ja	Ja	Ja
Zugreifen auf lokale Daten	Ja	Ja	Nein

Skalierbarkeitsfunktionen

Fähigkeit	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie auf HDInsight
Erweitern	Ja	Nein	Nein
Horizontal skalieren	Ja	Nein	Ja (durch Hinzufügen von Arbeitsknoten zum Cluster)
Für Big Data optimiert	Ja	Nein	Ja

Beitragende

Dieser Artikel wird von Microsoft verwaltet. Sie wurde ursprünglich von den folgenden Mitwirkenden verfasst.

Hauptautor:

Zoiner Tejada | CEO und Architekt

Nächste Schritte

DataOps für das moderne Data Warehouse