Välj en orkestreringsteknik för datapipelines i Azure
De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipeline orchestrator är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En orkestrerare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan aktiviteter.
I Azure uppfyller följande tjänster och verktyg huvudkraven för pipelineorkestrering, kontrollflöde och dataflytt:
Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Integration Runtime (IR) i Azure Data Factory V2 kan till exempel köra SSIS-paket internt i en hanterad Azure-beräkningsmiljö. Det finns vissa överlappningar i funktionaliteten mellan dessa tjänster, men det finns några viktiga skillnader.
För att begränsa alternativen börjar du med att svara på följande frågor:
Behöver du stordatafunktioner för att flytta och transformera dina data? Det innebär vanligtvis flera gigabyte till terabyte med data. Om ja, begränsa sedan dina alternativ till de som passar bäst för stordata.
Behöver du en hanterad tjänst som kan fungera i stor skala? Om ja väljer du en av de molnbaserade tjänster som inte begränsas av din lokala bearbetningskraft.
Finns några av dina datakällor lokalt? Om ja letar du efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.
Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Kapacitet | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Hanterade | Ja | No | Ja |
Molnbaserad | Ja | Nej (lokal) | Ja |
Förutsättning | Azure-prenumeration | SQL Server | Azure-prenumeration, HDInsight-kluster |
Hanteringsverktyg | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash shell, Oozie REST API, Oozie web UI |
Prissättning | Betala per användning | Licensiering/betala för funktioner | Ingen extra kostnad utöver att köra HDInsight-klustret |
Kapacitet | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Kopiera data | Ja | Ja | Ja |
Anpassade transformeringar | Ja | Ja | Ja (MapReduce-, Pig- och Hive-jobb) |
Azure Machine Learning-poängsättning | Ja | Ja (med skript) | Nej |
HDInsight på begäran | Ja | No | Nej |
Azure Batch | Ja | No | Nej |
Pig, Hive, MapReduce | Ja | No | Ja |
Spark | Ja | No | Nej |
Köra SSIS-paket | Ja | Ja | Nej |
Kontrollflöde | Ja | Ja | Ja |
Komma åt lokala data | Ja | Ja | Nej |
Kapacitet | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
---|---|---|---|
Skala upp | Ja | No | Nej |
Skala ut | Ja | Nej | Ja (genom att lägga till arbetsnoder i klustret) |
Optimerad för stordata | Ja | No | Ja |
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudförfattare:
- Zoiner Tejada | VD och arkitekt