Scegliere una tecnologia di orchestrazione della pipeline di dati in Azure

La maggior parte delle soluzioni di Big Data sono costituite da operazioni ripetute di elaborazione dei dati, incapsulate in flussi di lavoro. Un agente di orchestrazione di pipeline è uno strumento che consente di automatizzare tali flussi di lavoro. Un agente di orchestrazione può pianificare i processi, eseguire i flussi di lavoro e coordinare le dipendenze tra attività.

Opzioni disponibili per l'orchestrazione di una pipeline di dati

In Azure, i servizi e gli strumenti seguenti soddisfano i requisiti di base per l'orchestrazione di una pipeline, il flusso di controllo e lo spostamento di dati:

Questi servizi e strumenti possono essere usati in modo indipendente l'uno dall'altro oppure in combinazione per creare una soluzione ibrida. Ad esempio, Integration Runtime (IR) in Azure Data Factory versione 2 può eseguire in modo nativo i pacchetti SSIS in un ambiente di calcolo di Azure gestito. Anche se sono presenti alcuni aspetti comuni tra le funzionalità di questi servizi, esistono alcune differenze principali.

Criteri di scelta principali

Per limitare le possibilità di scelta, rispondere prima di tutto a queste domande:

  • Sono necessarie funzionalità di Big Data per lo spostamento e la trasformazione dei dati? In genere, ciò comporta la necessità di volumi elevati di dati. In caso affermativo, limitare la scelta alle opzioni più adatte ai Big Data.

  • È necessario un servizio gestito che può operare su larga scala? In caso affermativo, selezionare uno dei servizi basati su cloud che non sono limitati dalla potenza di elaborazione locale.

  • Alcune origini dati si trovano in locale? In caso affermativo, cercare opzioni che possono funzionare con origini dati o destinazioni sia cloud che locali.

  • L'origine dati è archiviata nell'archiviazione BLOB in un file system HDFS? In questo caso, scegliere un'opzione che supporti le query Hive.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità generali

Funzionalità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Gestito No
Basato su cloud No (locale)
Prerequisito Sottoscrizione di Azure SQL Server Sottoscrizione di Azure, cluster HDInsight
Strumenti di gestione Portale di Azure, PowerShell, interfaccia della riga di comando, .NET SDK SSMS, PowerShell Shell Bash, API REST di Oozie, interfaccia utente Web di Oozie
Prezzi Pagamento in base all'utilizzo Assegnazione di licenze/pagamento in base alle funzionalità Nessun costo aggiuntivo per l'esecuzione del cluster HDInsight

Funzionalità della pipeline

Funzionalità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Copiare i dati
Trasformazioni personalizzate Sì (processi MapReduce, Pig e Hive)
Assegnazione dei punteggi di Azure Machine Learning Sì (con script) No
HDInsight su richiesta No No
Azure Batch No No
Pig, Hive, MapReduce No
Spark No No
Esecuzione del pacchetto SSIS No
Flusso di controllo
Accedere ai dati locali No

Funzionalità di scalabilità

Funzionalità Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Aumentare le prestazioni No No
Aumentare il numero di istanze No Sì (mediante aggiunta di nodi di lavoro al cluster)
Ottimizzazione per Big Data No

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi