Entender fluxos de dados Gen2 no Microsoft Fabric

Concluído

Em nosso cenário, você precisa desenvolver um modelo semântico que possa padronizar os dados e fornecer acesso à empresa. Usando fluxos de dados Gen2, você pode se conectar às várias fontes de dados e, em seguida, preparar e transformar os dados. Para permitir o acesso, coloque os dados diretamente no lakehouse ou use um pipeline de dados para outros destinos.

O que é um fluxo de dados?

Os fluxos de dados são um tipo de ferramenta de ETL (extração, transformação e carregamento) baseada em nuvem para criar e executar processos de transformação de dados escalonáveis.

Os fluxos de dados Gen2 permitem extrair dados de várias fontes, transformá-los usando uma ampla gama de operações de transformação e carregá-los em um destino. O uso do Power Query Online também permite que uma interface visual execute essas tarefas.

Fundamentalmente, um fluxo de dados inclui todas as transformações para reduzir o tempo de preparação dos dados e pode ser carregado em uma nova tabela, incluído em um pipeline de dados ou usado como fonte de dados por analistas de dados.

Como usar fluxos de dados Gen2

Tradicionalmente, os engenheiros de dados gastam muito tempo extraindo, transformando e carregando dados em um formato consumível para análises downstream. O objetivo dos fluxos de dados Gen2 é fornecer uma maneira fácil e reutilizável de executar tarefas ETL usando o Power Query Online.

Ao optar por usar apenas um pipeline de dados, você copia os dados e usa sua linguagem de codificação preferencial para extrair, transformar e carregar esses dados. Como alternativa, você pode criar um Dataflow Gen2 primeiro para extrair e transformar os dados. Também é possível carregar os dados em um lakehouse e em outros destinos. Agora, a empresa pode consumir facilmente o modelo semântico coletado.

Adicionar um destino de dados ao fluxo de dados é uma ação opcional e o fluxo de dados preserva todas as etapas de transformação. Para executar outras tarefas ou carregar dados em um destino diferente após a transformação, crie um pipeline de dados e adicione a atividade do fluxo de dados Gen2 à sua orquestração.

Outra opção pode ser usar um pipeline de dados e o fluxo de dados Gen2 para o processo ELT (Extrair, Carregar, Transformar). No caso dessa ordem, você usaria um pipeline para extrair e carregar os dados em seu destino preferencial, como o lakehouse. Em seguida, você criaria um fluxo de dados Gen2 para se conectar aos dados do lakehouse para limpar e transformar dados. Nesse caso, você ofereceria o fluxo de dados como um modelo semântico coletado para analistas de dados desenvolverem relatórios.

Os fluxos de dados também podem ser particionados horizontalmente. Depois que você criar um fluxo de dados global, os analistas de dados poderão usar fluxos de dados para criar modelos semânticos especializados para necessidades específicas.

Os fluxos de dados permitem que você promova uma lógica de ETL reutilizável, que elimina a necessidade de criar conexões adicionais com a fonte de dados. Os fluxos de dados oferecem uma ampla variedade de transformações e podem ser executados manualmente, em um agendamento de atualização ou como parte de uma orquestração de pipeline de dados.

Benefícios e limitações

Há mais de uma maneira de realizar ELT ou realizar ELT em dados no Microsoft Fabric. Considere os benefícios e as limitações de usar fluxos de dados Gen2.

Benefícios:

  • Estenda dados com dados consistentes, como uma tabela de dimensões de data padrão.
  • Permita que usuários de autoatendimento acessem um subconjunto de data warehouse separadamente.
  • Otimize o desempenho com fluxos de dados, que permitem extrair dados uma única vez para reutilização, reduzindo o tempo de atualização de dados para fontes mais lentas.
  • Simplifique a complexidade da fonte de dados expondo apenas fluxos de dados a grupos de analistas maiores.
  • Garanta a consistência e a qualidade dos dados, permitindo que os usuários limpem e transformem dados antes de carregá-los em um destino.
  • Simplifique a integração de dados fornecendo uma interface com pouca codificação que ingere dados de várias fontes.

Limitações:

  • Não é um substituto para um data warehouse.
  • Não há suporte para segurança em nível de linha.
  • O workspace de capacidade do Fabric é necessário.