Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die meisten Big Data-Lösungen bestehen aus wiederholten Datenverarbeitungsvorgängen, die in Workflows gekapselt sind. Ein Pipeline-Orchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Aufgaben koordinieren.
Was sind Ihre Optionen für die Datenpipeline-Orchestrierung?
In Azure erfüllen die folgenden Dienste und Tools die wichtigsten Anforderungen für pipeline-Orchestrierung, Steuerungsfluss und Datenbewegungen:
Diese Dienste und Tools können unabhängig voneinander verwendet oder zusammen verwendet werden, um eine Hybridlösung zu erstellen. Beispielsweise kann die Integrations-Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Es gibt zwar einige Überschneidungen in der Funktionalität zwischen diesen Diensten, aber es gibt einige wichtige Unterschiede.
Schlüsselauswahlkriterien
Um die Auswahl einzugrenzen, beginnen Sie mit der Beantwortung dieser Fragen:
Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren Ihrer Daten? In der Regel bedeutet dies mehrere Gigabyte bis Terabyte Daten. Wenn ja, schränken Sie Ihre Optionen auf diejenigen ein, die für Big Data am besten geeignet sind.
Benötigen Sie einen verwalteten Service, der in großem Maßstab betrieben werden kann? Wenn ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch Ihre lokale Verarbeitungsleistung beschränkt sind.
Befinden sich einige Ihrer Datenquellen lokal? Wenn ja, suchen Sie nach Optionen, die sowohl mit Cloud- als auch mit lokalen Datenquellen oder Zielen funktionieren können.
Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn ja, wählen Sie eine Option aus, die Hive-Abfragen unterstützt.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
Allgemeine Funktionen
Fähigkeit | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie auf HDInsight |
---|---|---|---|
Verwaltet | Ja | Nein | Ja |
Cloudbasiert | Ja | Nein (lokal) | Ja |
Voraussetzung | Azure-Abonnement | SQL Server | Azure-Abonnement, HDInsight-Cluster |
Verwaltungstools | Azure-Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash-Shell, Oozie-REST-API, Oozie-Web-Benutzeroberfläche |
Preisgestaltung | Nutzungsbasierte Bezahlung | Lizenzierung / Bezahlung für Features | Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters) |
Pipelinefunktionen
Fähigkeit | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie auf HDInsight |
---|---|---|---|
Daten kopieren | Ja | Ja | Ja |
Benutzerdefinierte Transformationen | Ja | Ja | Ja (MapReduce-, Pig- und Hive-Jobs) |
Azure Machine Learning-Bewertung | Ja | Ja (mit Skripting) | Nein |
HDInsight auf Abruf | Ja | Nein | Nein |
Azure Batch | Ja | Nein | Nein |
Schwein, Bienenstock, MapReduce | Ja | Nein | Ja |
Funke | Ja | Nein | Nein |
SSIS-Paket ausführen | Ja | Ja | Nein |
Kontrollfluss | Ja | Ja | Ja |
Zugreifen auf lokale Daten | Ja | Ja | Nein |
Skalierbarkeitsfunktionen
Fähigkeit | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie auf HDInsight |
---|---|---|---|
Erweitern | Ja | Nein | Nein |
Horizontal skalieren | Ja | Nein | Ja (durch Hinzufügen von Arbeitsknoten zum Cluster) |
Für Big Data optimiert | Ja | Nein | Ja |
Beitragende
Dieser Artikel wird von Microsoft verwaltet. Sie wurde ursprünglich von den folgenden Mitwirkenden verfasst.
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Pipelines und Aktivitäten in Azure Data Factory und Azure Synapse Analytics
- Bereitstellen der Azure-SSIS Integrationslaufzeit in Azure Data Factory
- Oozie auf HDInsight