Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure
Die meisten Big Data-Lösungen setzen sich aus wiederholten Datenverarbeitungsvorgängen zusammen, die in Workflows gekapselt sind. Ein Pipelineorchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Tasks koordinieren.
Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?
In Azure erfüllen die folgenden Dienste und Tools die grundlegenden Anforderungen für Pipelineorchestrierung, Ablaufsteuerung und Datenverschiebung:
Diese Dienste und Tools können unabhängig voneinander oder zusammen zum Erstellen einer Hybridlösung verwendet werden. Beispielsweise kann die Integration Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Einige Funktionen dieser Dienste überschneiden sich zwar, es gibt jedoch auch wesentliche Unterschiede.
Wichtige Auswahlkriterien
Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:
Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren von Daten? In der Regel geht es dabei um Datenvolumen von mehreren Gigabytes oder Terabytes. Falls Sie solche Funktionen benötigen, können Sie sich auf die Optionen beschränken, die sich am besten für Big Data eignen.
Benötigen Sie einen verwalteten Dienst, der bedarfsorientiert ausgeführt werden kann? Falls ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch die lokale Verarbeitungsleistung beschränkt sind.
Befinden sich einige Ihrer Datenquellen lokal? Falls ja, suchen Sie Optionen, die mit cloudbasierten und lokalen Datenquellen oder -zielen verwendet werden können.
Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn dies der Fall ist, wählen Sie eine Option, die Hive-Abfragen unterstützt.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
Allgemeine Funktionen
Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Verwaltet | Ja | Keine | Ja |
Cloudbasiert | Ja | Nein (lokal) | Ja |
Voraussetzung | Azure-Abonnement | SQL Server | Azure-Abonnement, HDInsight-Cluster |
Verwaltungstools | Azure-Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash-Shell, Oozie-REST-API, Oozie-Webbenutzeroberfläche |
Preise | Nutzungsbasierte Bezahlung | Lizenzierung/Bezahlung für Funktionen | Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters) |
Pipelinefunktionen
Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Kopieren von Daten | Ja | Ja | Ja |
Benutzerdefinierte Transformationen | Ja | Ja | Ja (MapReduce-, Pig- und Hive-Aufträge) |
Azure Machine Learning-Bewertung | Ja | Ja (mit Skripts) | Nein |
HDInsight (bedarfsgesteuert) | Ja | Nr. | Nein |
Azure Batch | Ja | Nr. | Nein |
Pig, Hive, MapReduce | Ja | Keine | Ja |
Spark | Ja | Nr. | Nein |
Ausführen des SSIS-Pakets | Ja | Ja | Nein |
Ablaufsteuerung | Ja | Ja | Ja |
Zugriff auf lokale Daten | Ja | Ja | Nein |
Skalierbarkeitsfunktionen
Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
---|---|---|---|
Hochskalieren | Ja | Nr. | Nein |
Aufskalieren | Ja | Nein | Ja (durch Hinzufügen von Workerknoten zum Cluster) |
Für Big Data optimiert | Ja | Keine | Ja |
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Pipelines und Aktivitäten in Azure Data Factory und Azure Synapse Analytics
- Bereitstellen der Azure-SSIS Integration Runtime in Azure Data Factory
- Oozie in HDInsight