Läs på engelska

Dela via


Välj en orkestreringsteknik för datapipelines i Azure

De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipeline orchestrator är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En orkestrerare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan aktiviteter.

Vilka alternativ har du för orkestrering av datapipelines?

I Azure uppfyller följande tjänster och verktyg huvudkraven för pipelineorkestrering, kontrollflöde och dataflytt:

Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Integration Runtime (IR) i Azure Data Factory V2 kan till exempel köra SSIS-paket internt i en hanterad Azure-beräkningsmiljö. Det finns vissa överlappningar i funktionaliteten mellan dessa tjänster, men det finns några viktiga skillnader.

Kriterier för nyckelval

För att begränsa alternativen börjar du med att svara på följande frågor:

  • Behöver du stordatafunktioner för att flytta och transformera dina data? Det innebär vanligtvis flera gigabyte till terabyte med data. Om ja, begränsa sedan dina alternativ till de som passar bäst för stordata.

  • Behöver du en hanterad tjänst som kan fungera i stor skala? Om ja väljer du en av de molnbaserade tjänster som inte begränsas av din lokala bearbetningskraft.

  • Finns några av dina datakällor lokalt? Om ja letar du efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.

  • Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.

Kapacitetsmatris

I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.

Allmänna funktioner

Kapacitet Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Hanterade Ja No Ja
Molnbaserad Ja Nej (lokal) Ja
Förutsättning Azure-prenumeration SQL Server Azure-prenumeration, HDInsight-kluster
Hanteringsverktyg Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash shell, Oozie REST API, Oozie web UI
Prissättning Betala per användning Licensiering/betala för funktioner Ingen extra kostnad utöver att köra HDInsight-klustret

Pipelinefunktioner

Kapacitet Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Kopiera data Ja Ja Ja
Anpassade transformeringar Ja Ja Ja (MapReduce-, Pig- och Hive-jobb)
Azure Machine Learning-poängsättning Ja Ja (med skript) Nej
HDInsight på begäran Ja No Nej
Azure Batch Ja No Nej
Pig, Hive, MapReduce Ja No Ja
Spark Ja No Nej
Köra SSIS-paket Ja Ja Nej
Kontrollflöde Ja Ja Ja
Komma åt lokala data Ja Ja Nej

Skalbarhetsfunktioner

Kapacitet Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Skala upp Ja No Nej
Skala ut Ja Nej Ja (genom att lägga till arbetsnoder i klustret)
Optimerad för stordata Ja No Ja

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Nästa steg