Compreender os fluxos de dados Gen2 no Microsoft Fabric
Em nosso cenário, você precisa desenvolver um modelo semântico que possa padronizar os dados e fornecer acesso ao negócio. Usando Dataflows Gen2, você pode se conectar às várias fontes de dados e, em seguida, preparar e transformar os dados. Para permitir o acesso, você pode colocar os dados diretamente em sua Lakehouse ou usar um pipeline de dados para outros destinos.
O que é um fluxo de dados?
Os fluxos de dados são um tipo de ferramenta ETL (Extract, Transform, Load) baseada na nuvem para criar e executar processos de transformação de dados escaláveis.
Os fluxos de dados Gen2 permitem extrair dados de várias fontes, transformá-los usando uma ampla gama de operações de transformação e carregá-los em um destino. A utilização do Power Query Online também permite uma interface visual para executar estas tarefas.
Fundamentalmente, um fluxo de dados inclui todas as transformações para reduzir o tempo de preparação de dados e, em seguida, pode ser carregado em uma nova tabela, incluído em um Pipeline de Dados ou usado como fonte de dados por analistas de dados.
Como usar o Dataflows Gen2
Tradicionalmente, os engenheiros de dados gastam tempo significativo extraindo, transformando e carregando dados em um formato consumível para análises downstream. O objetivo do Dataflows Gen2 é fornecer uma maneira fácil e reutilizável de executar tarefas ETL usando o Power Query Online.
Se você optar por usar apenas um Pipeline de Dados, copiará os dados e, em seguida, usará sua linguagem de codificação preferida para extrair, transformar e carregar os dados. Como alternativa, você pode criar um Dataflow Gen2 primeiro para extrair e transformar os dados. Você também pode carregar os dados em um Lakehouse e outros destinos. Agora, a empresa pode facilmente consumir o modelo semântico com curadoria.
Adicionar um destino de dados ao seu fluxo de dados é opcional e o fluxo de dados preserva todas as etapas de transformação. Para executar outras tarefas ou carregar dados para um destino diferente após a transformação, crie um Pipeline de Dados e adicione a atividade Dataflow Gen2 à sua orquestração.
Outra opção pode ser usar um pipeline de dados e um fluxo de dados Gen2 para o processo ELT (Extract, Load, Transform ). Para essa ordem, você usaria um Pipeline para extrair e carregar os dados em seu destino preferido, como o Lakehouse. Em seguida, você criaria um Dataflow Gen2 para se conectar aos dados do Lakehouse para limpar e transformar dados. Nesse caso, você ofereceria o Dataflow como um modelo semântico com curadoria para analistas de dados desenvolverem relatórios.
Os fluxos de dados também podem ser particionados horizontalmente. Depois de criar um fluxo de dados global, os analistas de dados podem usar fluxos de dados para criar modelos semânticos especializados para necessidades específicas.
Os fluxos de dados permitem que você promova uma lógica ETL reutilizável que evita a necessidade de criar mais conexões com sua fonte de dados. Os fluxos de dados oferecem uma ampla variedade de transformações e podem ser executados manualmente, em uma agenda de atualização ou como parte de uma orquestração do Data Pipeline.
Benefícios e limitações
Há mais de uma maneira de obter dados ETL ou ELT no Microsoft Fabric. Considere os benefícios e limitações do uso do Dataflows Gen2.
Benefícios:
- Estenda dados com dados consistentes, como uma tabela de dimensões de data padrão.
- Permita que os usuários de autoatendimento acessem um subconjunto de data warehouse separadamente.
- Otimize o desempenho com fluxos de dados, que permitem extrair dados uma vez para reutilização, reduzindo o tempo de atualização de dados para fontes mais lentas.
- Simplifique a complexidade da fonte de dados expondo apenas os fluxos de dados a grupos de analistas maiores.
- Garanta a consistência e a qualidade dos dados, permitindo que os usuários limpem e transformem os dados antes de carregá-los em um destino.
- Simplifique a integração de dados fornecendo uma interface low-code que ingere dados de várias fontes.
Limitações:
- Não substitui um armazém de dados.
- A segurança em nível de linha não é suportada.
- O espaço de trabalho de capacidade de malha é necessário.