Välj en orkestreringsteknik för datapipelines i Azure

Artikel
2024-12-15

De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipeline orchestrator är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En orkestrerare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan aktiviteter.

Vilka alternativ har du för orkestrering av datapipelines?

I Azure uppfyller följande tjänster och verktyg huvudkraven för pipelineorkestrering, kontrollflöde och dataflytt:

Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Integration Runtime (IR) i Azure Data Factory V2 kan till exempel köra SSIS-paket internt i en hanterad Azure-beräkningsmiljö. Det finns vissa överlappningar i funktionaliteten mellan dessa tjänster, men det finns några viktiga skillnader.

Kriterier för nyckelval

För att begränsa alternativen börjar du med att svara på följande frågor:

Behöver du stordatafunktioner för att flytta och transformera dina data? Det innebär vanligtvis flera gigabyte till terabyte med data. Om ja, begränsa sedan dina alternativ till de som passar bäst för stordata.
Behöver du en hanterad tjänst som kan fungera i stor skala? Om ja väljer du en av de molnbaserade tjänster som inte begränsas av din lokala bearbetningskraft.
Finns några av dina datakällor lokalt? Om ja letar du efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.
Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.

Kapacitetsmatris

I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.

Allmänna funktioner

Förmåga	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie på HDInsight
Administrerad	Ja	Nej	Ja
Molnbaserad	Ja	Nej (lokal)	Ja
Förutsättning	Azure-prenumeration	SQL Server	Azure-prenumeration, HDInsight-kluster
Hanteringsverktyg	Azure Portal, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Bash shell, Oozie REST API, Oozie web UI
Prissättning	Betala per användning	Licensiering/betala för funktioner	Ingen extra kostnad utöver att köra HDInsight-klustret

Pipelinekapaciteter

Förmåga	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie på HDInsight
Kopiera data	Ja	Ja	Ja
Anpassade omvandlingar	Ja	Ja	Ja (MapReduce-, Pig- och Hive-jobb)
Azure Machine Learning-poängsättning	Ja	Ja (med skript)	Nej
HDInsight på begäran	Ja	Nej	Nej
Azure Batch	Ja	Nej	Nej
Pig, Hive, MapReduce	Ja	Nej	Ja
Gnista	Ja	Nej	Nej
Köra SSIS-paket	Ja	Ja	Nej
Kontrollflöde	Ja	Ja	Ja
Få åtkomst till lokala data	Ja	Ja	Nej

Skalbarhetsfunktioner

Förmåga	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie på HDInsight
Skala upp	Ja	Nej	Nej
Utöka systemet	Ja	Nej	Ja (genom att lägga till arbetsnoder i klustret)
Optimerad för stordata	Ja	Nej	Ja

Bidragsgivare

Den här artikeln underhålls av Microsoft. Den skrevs ursprungligen av följande deltagare.

Huvudförfattare:

Zoiner Tejada | VD och arkitekt

Nästa steg

DataOps för det moderna informationslagret

Dela via

Välj en orkestreringsteknik för datapipelines i Azure

Vilka alternativ har du för orkestrering av datapipelines?

Kriterier för nyckelval

Kapacitetsmatris

Allmänna funktioner

Pipelinekapaciteter

Skalbarhetsfunktioner

Bidragsgivare

Nästa steg

Feedback

Ytterligare resurser

Dela via

Välj en orkestreringsteknik för datapipelines i Azure

Vilka alternativ har du för orkestrering av datapipelines?

Kriterier för nyckelval

Kapacitetsmatris

Allmänna funktioner

Pipelinekapaciteter

Skalbarhetsfunktioner

Bidragsgivare

Nästa steg

Relaterade resurser

Feedback

Ytterligare resurser