Escolher uma tecnologia de orquestração de pipeline de dados no Azure
A maioria das soluções de big data consiste em operações repetidas de processamento de dados, encapsuladas em fluxos de trabalho. Um orquestrador de pipeline é uma ferramenta que ajuda a automatizar esses fluxos de trabalho. Um orquestrador pode agendar trabalhos, executar fluxos de trabalho e coordenar dependências entre tarefas.
Quais são suas opções para orquestração de pipeline de dados?
No Azure, os seguintes serviços e ferramentas atenderão aos principais requisitos para orquestração de pipeline, fluxo de controle e movimentação de dados:
Esses serviços e ferramentas podem ser usados independentemente uns dos outros ou usados juntos para criar uma solução híbrida. Por exemplo, o IR (Integration Runtime) no Azure Data Factory V2 pode executar nativamente pacotes SSIS em um ambiente de computação gerenciado do Azure. Embora haja alguma sobreposição na funcionalidade entre esses serviços, há algumas diferenças importantes.
Principais critérios de seleção
Para restringir as escolhas, comece por responder a estas perguntas:
Você precisa de recursos de big data para mover e transformar seus dados? Normalmente, isso significa multi-gigabytes a terabytes de dados. Se sim, então restrinja suas opções para aquelas que mais se adequam ao big data.
Você precisa de um serviço gerenciado que possa operar em escala? Se sim, selecione um dos serviços baseados na nuvem que não estão limitados pelo seu poder de processamento local.
Algumas das suas fontes de dados estão localizadas no local? Em caso afirmativo, procure opções que possam funcionar com fontes ou destinos de dados na nuvem e no local.
Os dados de origem são armazenados no armazenamento de Blob em um sistema de arquivos HDFS? Em caso afirmativo, escolha uma opção que ofereça suporte a consultas do Hive.
Matriz de capacidades
As tabelas a seguir resumem as principais diferenças nos recursos.
Capacidades gerais
Funcionalidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Não gerido | Sim | No | Sim |
Baseado na nuvem | Sim | Não (local) | Sim |
Pré-requisito | Subscrição do Azure | SQL Server | Subscrição do Azure, cluster HDInsight |
Ferramentas de gestão | Portal do Azure, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash shell, Oozie REST API, Oozie web UI |
Preços | Pagamento por utilização | Licenciamento/pagamento de funcionalidades | Sem custos adicionais para além da execução do cluster HDInsight |
Recursos de pipeline
Funcionalidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Copiar dados | Sim | Sim | Sim |
Transformações personalizadas | Sim | Sim | Sim (trabalhos MapReduce, Pig e Hive) |
Pontuação do Azure Machine Learning | Sim | Sim (com scripts) | Não |
HDInsight sob demanda | Sim | No | Não |
Azure Batch | Sim | No | Não |
Porco, Colmeia, MapReduce | Sim | No | Sim |
Spark | Sim | No | Não |
Executar pacote SSIS | Sim | Sim | No |
Fluxo de controlo | Sim | Sim | Sim |
Acesso aos dados no local | Sim | Sim | No |
Recursos de escalabilidade
Funcionalidade | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie no HDInsight |
---|---|---|---|
Aumentar verticalmente | Sim | No | Não |
Aumentar horizontalmente | Sim | No | Sim (adicionando nós de trabalho ao cluster) |
Otimizado para big data | Sim | No | Sim |
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Zoiner Tejada - Brasil | CEO e Arquiteto
Próximos passos
- Pipelines e atividades no Azure Data Factory e no Azure Synapse Analytics
- Provisionar o tempo de execução de integração Azure-SSIS no Azure Data Factory
- Oozie no HDInsight
Recursos relacionados
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários