Compreender o Azure Data Factory

Concluído

A necessidade de acionar a movimentação em lote de dados ou de configurar um cronograma regular é um requisito para a maioria das soluções de análise. O Azure Data Factory (ADF) é o serviço que pode ser usado para atender a esse requisito. O ADF fornece um serviço de integração de dados baseado em nuvem que orquestra a movimentação e a transformação de dados entre vários armazenamentos de dados e recursos de computação.

O Azure Data Factory é o ETL baseado na nuvem e o serviço de integração de dados que lhe permite criar fluxos de trabalho orientados por dados para orquestrar a movimentação de dados e transformar dados em escala. Ao utilizar o Azure Data Factory, pode criar e agendar fluxos de trabalho condicionados por dados (denominados pipelines) que podem ingerir dados a partir de arquivos de dados diferentes. Você pode criar processos ETL complexos que transformam dados visualmente com fluxos de dados ou usando serviços de computação como Azure HDInsight Hadoop, Azure Databricks e Azure Synapse Analytics.

Grande parte da funcionalidade do Azure Data Factory aparece no Azure Synapse Analytics como um recurso conhecido como Pipelines, que permite integrar pipelines de dados entre SQL Pools, Spark Pools e SQL Serverless, fornecendo um balcão único para todas as suas necessidades analíticas.

O que se entende por orquestração

Para usar uma analogia, pense numa orquestra sinfónica. O membro central da orquestra é o maestro. O maestro não toca os instrumentos, eles simplesmente conduzem os membros da sinfonia através de toda a peça musical que eles executam. Os músicos usam suas próprias habilidades para produzir sons particulares em vários estágios da sinfonia, então eles só podem aprender certas partes da música. O maestro orquestra toda a peça musical e, portanto, está ciente de toda a partitura que está sendo executada. Eles também usarão movimentos específicos do braço que fornecem instruções aos músicos sobre como uma peça musical deve ser tocada.

O ADF pode usar uma abordagem semelhante, embora tenha funcionalidade nativa para ingerir e transformar dados, às vezes ele instruirá outro serviço a executar o trabalho real necessário em seu nome, como um Databricks para executar uma consulta de transformação. Então, neste caso, seria a Databricks que executa o trabalho, não a ADF. O ADF apenas orquestra a execução da consulta e, em seguida, fornece os pipelines para mover os dados para a próxima etapa ou destino.

Também proporciona visualizações ricas para apresentar a linhagem e as dependências entre os pipelines de dados e monitorizá-los a partir de uma vista unificada única, para identificar facilmente problemas e configurar alertas de monitorização.

Data Factory platform