Escolher uma tecnologia de orquestração de pipeline de dados no Azure

A maioria das soluções de big data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.

Quais são suas opções para orquestração de pipeline de dados?

No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:

Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

  • Você precisa de recursos de big data para mover e transformar seus dados? Normalmente, isso significa multi-gigabytes a terabytes de dados. Se sim, então restrinja suas opções para aquelas que mais se adequam ao big data.

  • Você precisa de um serviço gerenciado que possa operar em escala? Se sim, selecione um dos serviços baseados na nuvem que não estão limitados pelo seu poder de processamento local.

  • Algumas das suas fontes de dados estão localizadas no local? Em caso afirmativo, procure opções que possam funcionar com fontes ou destinos de dados na nuvem e no local.

  • Os dados de origem são armazenados no armazenamento de Blob em um sistema de arquivos HDFS? Em caso afirmativo, escolha uma opção que ofereça suporte a consultas do Hive.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Capacidades gerais

Funcionalidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Não gerido Sim No Sim
Baseado na nuvem Sim Não (local) Sim
Pré-requisito Subscrição do Azure SQL Server Subscrição do Azure, cluster HDInsight
Ferramentas de gestão Portal do Azure, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash shell, Oozie REST API, Oozie web UI
Preços Pagamento por utilização Licenciamento/pagamento de funcionalidades Sem custos adicionais para além da execução do cluster HDInsight

Recursos de pipeline

Funcionalidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Copiar dados Sim Sim Sim
Transformações personalizadas Sim Sim Sim (trabalhos MapReduce, Pig e Hive)
Pontuação do Azure Machine Learning Sim Sim (com scripts) Não
HDInsight sob demanda Sim No Não
Azure Batch Sim No Não
Porco, Colmeia, MapReduce Sim No Sim
Spark Sim No Não
Executar pacote SSIS Sim Sim No
Fluxo de controlo Sim Sim Sim
Acesso aos dados no local Sim Sim No

Recursos de escalabilidade

Funcionalidade Azure Data Factory SQL Server Integration Services (SSIS) Oozie no HDInsight
Aumentar verticalmente Sim No Não
Aumentar horizontalmente Sim No Sim (adicionando nós de trabalho ao cluster)
Otimizado para big data Sim No Sim

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos