Desenvolver soluções com fluxos de dados (legado)

Dica

O Power BI Dataflow Gen1 agora está em um estado herdado e não receberá novos investimentos em recursos. Para clientes Premium com acesso ao Fabric, o Dataflow Gen2 é o caminho recomendado, oferecendo melhorias no desempenho, escala, confiabilidade, funcionalidade e IA interna. Os clientes Pro/PPU podem continuar a usar o Gen1, já que a orientação para Gen2 nesses cenários ainda está evoluindo. Consulte a atualização do Dataflow Gen1 para o Dataflow Gen2 para obter diretrizes de atualização.

Os fluxos de dados do Power BI são uma solução de preparação de dados voltada para empresas que permite o uso de um ecossistema de dados pronto para consumo, reutilização e integração. Este artigo apresenta alguns cenários comuns, links para artigos e outras informações para ajudá-lo a entender e aproveitar ao máximo os fluxos de dados.

Obter acesso aos recursos Premium de fluxos de dados

Os fluxos de dados do Power BI com capacidades Premium fornecem muitos recursos importantes que ajudam a obter escala e desempenho maiores para seus fluxos de dados, como:

  • Computação avançada, que acelera o desempenho do ETL e fornece funcionalidades do DirectQuery.
  • Atualização incremental, que permite carregar dados alterados de uma fonte.
  • Entidades vinculadas, que você pode usar para fazer referência a outros fluxos dados.
  • Entidades computadas, que você pode usar para criar blocos de construção combináveis de fluxos de dados que contêm mais lógica de negócios.

Por esses motivos, recomendamos que você use fluxos de dados em uma capacidade Premium sempre que possível. Os fluxos de dados usados em uma licença do Power BI Pro podem ser usados para casos de uso simples e de pequena escala.

Solução

Há duas maneiras de se obter acesso a esses recursos Premium de fluxo de dados:

  • Atribuir uma capacidade Premium para um workspace específico e usar sua própria licença Pro para criar fluxos de dados aqui.
  • Usar sua própria licença PPU (Premium por Usuário), o que exige que outros membros do workspace também possuam uma licença PPU.

Não é possível consumir fluxos de dados do PPU (ou qualquer outro conteúdo) fora do ambiente PPU (como em ambientes Premium ou outros SKU ou licenças).

Para capacidades Premium, seus consumidores de fluxos de dados no Power BI Desktop não precisam de licenças explícitas para consumir e publicar no Power BI. Mas para publicar em um workspace ou compartilhar um modelo semântico resultante, você precisa de pelo menos uma licença Pro.

Para PPU, todos que criam ou consomem conteúdo PPU devem ter uma licença PPU. Esse requisito difere do restante do Power BI, pois você precisa licenciar explicitamente todos com o PPU. Não é possível misturar capacidades Gratuitas, Pro ou até mesmo Premium com conteúdo de PPU, a menos que você migre o espaço de trabalho para uma capacidade Premium.

A escolha de um modelo geralmente depende do tamanho e das metas da sua organização, mas se aplicam as diretrizes a seguir.

Tipo de equipe Premium por capacidade Premium por usuário
>5.000 usuários
<5.000 usuários

Para equipes pequenas, o PPU pode preencher a lacuna entre as categorias Gratuita, Pro e Premium conforme a capacidade. Se você tiver necessidades maiores, usar uma capacidade Premium com usuários que têm licenças Pro será a melhor abordagem.

Criar fluxos de dados de usuário com segurança aplicada

Imagine que você precisa criar fluxos de dados para consumo, mas tem requisitos de segurança:

Diagrama que descreve o cenário.

Nesse cenário, você provavelmente tem dois tipos de workspaces:

  • Espaços de trabalho de back-end onde você desenvolve fluxos de dados e constrói a lógica de negócios.

  • Workspaces do usuário onde você deseja expor alguns fluxos de dados ou tabelas para um determinado grupo de usuários consumir.

    • A área de trabalho do usuário contém tabelas vinculadas que apontam para os fluxos de dados na área de trabalho do back-end.
    • Os usuários têm acesso de espectador ao ambiente de trabalho do consumidor e não têm acesso ao ambiente de trabalho de back-end.
    • Quando um usuário usa o Power BI Desktop para acessar um fluxo de dados no workspace do usuário, ele pode ver o fluxo de dados. Mas como o fluxo de dados aparece vazio no navegador, as tabelas vinculadas não são exibidas.

Entender as tabelas vinculadas

As tabelas vinculadas são simplesmente um ponteiro para as tabelas de fluxo de dados originais e elas herdam a permissão da origem. Se o Power BI permitisse que a tabela vinculada usasse a permissão de destino, qualquer usuário poderia burlar a permissão de origem criando uma tabela vinculada no destino que aponta para a origem.

Solução: usar tabelas computadas

Se você tiver acesso ao Power BI Premium, poderá criar uma tabela computada no destino que se refere à tabela vinculada, que possui uma cópia dos dados da tabela vinculada. Você pode remover as colunas por meio de projeções e remover as linhas por meio de filtros. O usuário com permissão no workspace de destino pode acessar dados por meio dessa tabela.

A linhagem para indivíduos privilegiados também mostra o workspace referenciado e permite que os usuários façam a vinculação de volta para entender totalmente o fluxo de dados pai. Para os usuários que não são privilegiados, a privacidade ainda é respeitada. Somente o nome do workspace é mostrado.

O diagrama a seguir ilustra essa instalação. À esquerda está o padrão de arquitetura. À direita está um exemplo que mostra os dados de vendas divididos e protegidos por região.

Diagrama que descreve como usar fluxos de dados e tabelas vinculadas.

Reduzir os tempos de atualização para fluxos de dados

Imagine que você tem um grande fluxo de dados, mas deseja criar modelos semânticos a partir dele e diminuir o tempo necessário para atualizá-los. Normalmente, as atualizações demoram muito para serem concluídas a partir da fonte de dados até o fluxo de dados para o modelo semântico. As atualizações demoradas são difíceis de gerenciar ou manter.

Solução: usar tabelas com Habilitar Carga explicitamente configurada para tabelas referenciadas e não desabilitar carga

O Power BI oferece suporte à orquestração simples para fluxos de dados, conforme definido em noções básicas e otimização da atualização de fluxos de dados. Para tirar proveito da orquestração, é preciso explicitamente ter todos os fluxos de dados downstream configurados para Habilitar Carga.

Geralmente, a desabilitação da carga só é apropriada quando a sobrecarga do carregamento de mais consultas cancela o benefício da entidade com a qual você está desenvolvendo.

Embora a desabilitação da carga indique que o Power BI não avalia essa consulta, quando usada como componente, ou seja, referenciada em outros fluxos de dados, significa também que o Power BI não a trata como uma tabela existente, na qual podemos fornecer um ponteiro e executar folding e otimizações de consulta. Nesse sentido, a execução de transformações, como uma junção ou uma mesclagem, é meramente uma junção ou mesclagem de duas consultas de fonte de dados. Essas operações podem ter um efeito negativo no desempenho, porque o Power BI deve recarregar totalmente a lógica já calculada novamente e, em seguida, aplicar mais lógica.

Para simplificar o processamento de consultas de seu fluxo de dados e garantir que quaisquer otimizações do mecanismo estejam em vigor, habilite a carga e verifique se o mecanismo de computação em fluxo de dados do Power BI Premium está definido na configuração padrão, que é Otimizada.

Habilitar a carga também permite que você mantenha a visão completa da linhagem, porque o Power BI considera um fluxo de dados de carga não habilitado como um novo item. Se a linhagem for importante para você, não desabilite a carga para entidades ou fluxos de dados conectados a outros fluxos de dados.

Reduzir os tempos de atualização para modelos semânticos

Imagine que você tem um fluxo de dados grande, mas deseja criar modelos semânticos a partir dele e diminuir a orquestração. As atualizações demoram muito para serem concluídas, desde a fonte de dados até os fluxos de dados e até os modelos semânticos, o que aumenta a latência.

Solução: usar fluxos de dados do DirectQuery

O DirectQuery pode ser usado sempre que a configuração de ECE (mecanismo de computação avançado) de um workspace estiver configurada explicitamente como Ativado. Essa configuração é útil quando você tem dados que não precisam ser carregados diretamente em um modelo do Power BI. Se você estiver configurando o ECE para ser Ativado pela primeira vez, as alterações que permitem o DirectQuery ocorrerão durante a próxima atualização. Você precisa atualizá-lo ao habilitá-lo para que as alterações ocorram imediatamente. As atualizações na carga de fluxo de dados inicial podem ser mais lentas, porque o Power BI grava dados no armazenamento e em um mecanismo de SQL gerenciado.

Para resumir, o uso do DirectQuery com fluxos de dados permite os seguintes aprimoramentos aos seus processos de Power BI e de fluxo de dados:

  • Evitar agendas de atualização separadas: o DirectQuery se conecta diretamente a um fluxo de dados, que elimina a necessidade de criar um modelo semântico importado. Dessa forma, o uso do DirectQuery com seus fluxos de dados significa que não há mais necessidade de agendar atualizações separadamente para o fluxo de dados e o modelo semântico a fim de garantir que os dados fiquem sincronizados.
  • Filtragem de dados: o DirectQuery é útil para trabalhar em uma exibição filtrada de dados dentro de um fluxo de dados. Se você quiser filtrar os dados e, dessa forma, trabalhar com um subconjunto menor dos dados em seu fluxo de dados, poderá usar o DirectQuery (e o ECE) para filtrar os dados do fluxo de dados e trabalhar com o subconjunto filtrado de que precisar.

Em geral, o uso do DirectQuery obterá dados atualizados em seu modelo semântico, mas terá um desempenho de relatório mais lento em comparação com o modo de importação. Considere essa abordagem somente quando:

  • Seu caso de uso necessitar de dados de baixa latência provenientes do seu fluxo de dados.
  • Os dados do fluxo de dados são grandes.
  • Uma importação seria muito demorada.
  • Você está disposto a trocar o desempenho em cache por dados atualizados.

Solução: use o conector de Dataflows para habilitar o folding de consultas e a atualização incremental na importação

O conector de Dataflows unificado pode reduzir significativamente o tempo de avaliação das etapas realizadas sobre entidades calculadas, como a execução de junções, distinções, filtros e operações de agrupamento. Há dois benefícios específicos:

  • Os usuários finais que se conectarem ao conector de fluxos de dados no Power BI Desktop podem obter um desempenho melhor em cenários de criação, pois o novo conector oferece suporte à otimização de consultas.
  • As operações de atualização do modelo semântico também podem ser integradas ao motor de computação aprimorado, o que implica que até mesmo a atualização incremental de um modelo semântico pode ser integrada a um fluxo de trabalho de dados. Essa funcionalidade melhora o desempenho da atualização e reduz potencialmente a latência entre os ciclos de atualização.

Para habilitar esse recurso para qualquer fluxo de dados Premium, verifique se o mecanismo de computação está definido explicitamente como Ativado. Depois, use o conector de fluxos de dados no Power BI Desktop. Para poder utilizar esse recurso, use a versão de agosto de 2021 ou posterior do Power BI Desktop.

Para utilizar esse recurso para as soluções existentes, você deve ter uma assinatura Premium ou Premium Por Usuário. Talvez você também precise fazer algumas alterações em seu fluxo de dados, conforme descrito em Usar o mecanismo de computação aprimorado. Você deve atualizar todas as consultas existentes do Power Query para usar o novo conector, substituindo PowerBI.Dataflows na seção de Origem por PowerPlatform.Dataflows.

Criação de fluxo de dados complexa no Power Query

Imagine que você tem um fluxo de dados com milhões de linhas, mas deseja usá-lo para criar uma lógica de negócios complexa e transformações. Você deseja seguir as melhores práticas para trabalhar com grandes fluxos de trabalho. Você também precisa que as visualizações de fluxo de dados sejam executadas rapidamente. Mas você tem dezenas de colunas e milhões de linhas de dados.

Solução: usar a Exibição de esquema

Você pode usar a Visualização de Esquema, que foi projetada para otimizar seu fluxo ao trabalhar em operações no nível do esquema, destacando as informações das colunas da sua consulta. A exibição de esquema fornece interações contextuais para formatar sua estrutura de dados. A exibição de esquema também fornece operações de latência mais baixa, porque requer apenas que os metadados de coluna sejam computados e não os resultados de dados completos.

Trabalhar com fontes de dados maiores

Imagine que você executará uma consulta no sistema de origem, mas não deseja fornecer acesso direto ao sistema nem democratizar o acesso. Você planeja colocá-lo em um fluxo de dados.

Solução 1: usar uma exibição para a consulta ou otimizar a consulta

Usar uma fonte de dados otimizada e realizar uma consulta é a sua melhor opção. Frequentemente a fonte de dados opera melhor com as consultas destinadas a ela. O Power Query avança as capacidades de query folding para delegar essas cargas de trabalho. O Power BI também fornece indicadores de dobragem de etapas no Power Query Online. Leia mais sobre os tipos de indicadores na documentação de indicadores de dobragem de etapa.

Solução 2: usar uma consulta nativa

Você também pode usar a função M Value.NativeQuery(). Você define EnableFolding=true no terceiro parâmetro. A Consulta Nativa está documentada neste site para o conector do Postgres. Ele também funciona para o conector do SQL Server.

Solução 3: Divida o fluxo de dados em fluxos de dados de ingestão e consumo para aproveitar o ECE e as Entidades Vinculadas

Ao quebrar um fluxo de dados em fluxos de dados separados de ingestão e consumo, você pode aproveitar o ECE e as Entidades Vinculadas. Você pode saber mais sobre esse e outros padrões na documentação de melhores práticas.

Garantir que os clientes usem fluxos de dados sempre que possível

Imagine que você tem muitos fluxos de dados que atendem a finalidades comuns, por exemplo, dimensões conformadas, como clientes, tabelas de dados, produtos e geografias. Os fluxos de dados já estão disponíveis na faixa de opções do Power BI. Idealmente, você deseja que os clientes usem principalmente os fluxos de dados que você criou.

Solução: usar endossos para certificar e promover fluxos de dados

Para saber mais sobre como o endosso funciona, confira Endosso: promoção e certificação do conteúdo do Power BI.

Programação e automação em fluxos de dados do Power BI

Imagine que você tem requisitos de negócios para automatizar importações, exportações ou atualizações, além de mais orquestrações de ações fora do Power BI. Algumas opções para habilitar essa ação estão descritas na tabela a seguir.

Tipo Mecanismo
Use os modelos do Power Automate. Sem código
Use scripts de automação no PowerShell. Scripts de automação
Criar sua própria lógica de negócios usando as APIs. REST API

Para obter mais informações sobre a atualização, confira Reconhecimento e otimização da atualização de fluxos de dados.

Assegure-se de proteger os ativos de dados nos processos subsequentes

Você pode usar etiquetas de sensibilidade para aplicar uma classificação de dados e quaisquer regras configuradas em itens a jusante que se conectam aos seus fluxos de dados. Para saber mais sobre os rótulos de confidencialidade, confira Rótulos de confidencialidade no Power BI. Para analisar a herança, veja Herança no fluxo descendente do rótulo de confidencialidade no Power BI.

Suporte multigeográfico

Atualmente, há muitos clientes que precisam atender aos requisitos de soberania e residência de dados. Você pode concluir uma configuração manual do seu workspace de fluxos de dados para ter múltiplas áreas geográficas.

Os fluxos de dados suportam a multigeografia quando usam o recurso de usar sua própria conta de armazenamento. Esse recurso está descrito em Como configurar o armazenamento de fluxos de dados para usar o Azure Data Lake Gen 2. O workspace deve estar vazio antes de anexar essa funcionalidade. Com essa configuração específica, você pode armazenar dados de fluxo de dados em regiões geográficas da sua escolha.

Garantir que você proteja os ativos de dados por trás de uma rede virtual

Atualmente, muitos clientes têm a necessidade de proteger seus ativos de dados por trás de um endpoint privado. Para isso, use redes virtuais e um gateway para permanecer em conformidade. A tabela a seguir descreve o atual suporte à rede virtual e explica como usar fluxos de dados para permanecer em conformidade e proteger seus ativos de dados.

Cenário Status
Ler fontes de dados de rede virtual por meio de um gateway local. Com suporte por meio de um gateway local
Grave dados em uma conta com rótulo de sensibilidade por trás de uma rede virtual usando um gateway local. Ainda não suportado

Os seguintes artigos fornecem mais informações sobre os fluxos de dados e o Power BI: