Freigeben über


Auswählen einer Datenpipeline-Orchestrierungstechnologie in Azure

Die meisten Big Data-Lösungen bestehen aus wiederholten Datenverarbeitungsvorgängen, die in Workflows gekapselt sind. Ein Pipeline-Orchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Aufgaben koordinieren.

Was sind Ihre Optionen für die Datenpipeline-Orchestrierung?

In Azure erfüllen die folgenden Dienste und Tools die wichtigsten Anforderungen für pipeline-Orchestrierung, Steuerungsfluss und Datenbewegungen:

Diese Dienste und Tools können unabhängig voneinander verwendet oder zusammen verwendet werden, um eine Hybridlösung zu erstellen. Beispielsweise kann die Integrations-Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Es gibt zwar einige Überschneidungen in der Funktionalität zwischen diesen Diensten, aber es gibt einige wichtige Unterschiede.

Schlüsselauswahlkriterien

Um die Auswahl einzugrenzen, beginnen Sie mit der Beantwortung dieser Fragen:

  • Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren Ihrer Daten? In der Regel bedeutet dies mehrere Gigabyte bis Terabyte Daten. Wenn ja, schränken Sie Ihre Optionen auf diejenigen ein, die für Big Data am besten geeignet sind.

  • Benötigen Sie einen verwalteten Service, der in großem Maßstab betrieben werden kann? Wenn ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch Ihre lokale Verarbeitungsleistung beschränkt sind.

  • Befinden sich einige Ihrer Datenquellen lokal? Wenn ja, suchen Sie nach Optionen, die sowohl mit Cloud- als auch mit lokalen Datenquellen oder Zielen funktionieren können.

  • Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn ja, wählen Sie eine Option aus, die Hive-Abfragen unterstützt.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Fähigkeit Azure Data Factory SQL Server Integration Services (SSIS) Oozie auf HDInsight
Verwaltet Ja Nein Ja
Cloudbasiert Ja Nein (lokal) Ja
Voraussetzung Azure-Abonnement SQL Server Azure-Abonnement, HDInsight-Cluster
Verwaltungstools Azure-Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-Shell, Oozie-REST-API, Oozie-Web-Benutzeroberfläche
Preisgestaltung Nutzungsbasierte Bezahlung Lizenzierung / Bezahlung für Features Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters)

Pipelinefunktionen

Fähigkeit Azure Data Factory SQL Server Integration Services (SSIS) Oozie auf HDInsight
Daten kopieren Ja Ja Ja
Benutzerdefinierte Transformationen Ja Ja Ja (MapReduce-, Pig- und Hive-Jobs)
Azure Machine Learning-Bewertung Ja Ja (mit Skripting) Nein
HDInsight auf Abruf Ja Nein Nein
Azure Batch Ja Nein Nein
Schwein, Bienenstock, MapReduce Ja Nein Ja
Funke Ja Nein Nein
SSIS-Paket ausführen Ja Ja Nein
Kontrollfluss Ja Ja Ja
Zugreifen auf lokale Daten Ja Ja Nein

Skalierbarkeitsfunktionen

Fähigkeit Azure Data Factory SQL Server Integration Services (SSIS) Oozie auf HDInsight
Erweitern Ja Nein Nein
Horizontal skalieren Ja Nein Ja (durch Hinzufügen von Arbeitsknoten zum Cluster)
Für Big Data optimiert Ja Nein Ja

Beitragende

Dieser Artikel wird von Microsoft verwaltet. Sie wurde ursprünglich von den folgenden Mitwirkenden verfasst.

Hauptautor:

Nächste Schritte