Cenários de uso do Power BI: preparação de dados pessoais

Nota

Este artigo faz parte da série de artigos de planejamento de implementação do Power BI. Esta série se concentra principalmente na carga de trabalho do Power BI no Microsoft Fabric. Para obter uma introdução à série, consulte Planejamento de implementação do Power BI.

A preparação de dados (às vezes referida como ETL, que é um acrônimo para Extract, Transform, and Load) geralmente envolve uma quantidade significativa de trabalho, dependendo da qualidade e da estrutura dos dados de origem. O cenário de uso de preparação de dados de autoatendimento se concentra na reutilização das atividades de preparação de dados pelos analistas de negócios. Ele atinge essa meta de reutilização realocando o trabalho de preparação de dados do Power Query (em arquivos individuais do Power BI Desktop) para o Power Query Online (usando um fluxo de dados do Power BI). A centralização da lógica ajuda a alcançar uma única fonte da verdade e reduz o nível de esforço exigido por outros criadores de conteúdo.

Os fluxos de dados são criados usando o Power Query Online em uma das várias ferramentas: o serviço Power BI, o Power Apps ou o Dynamics 365 Customer Insights. Um fluxo de dados criado no Power BI é conhecido como um fluxo de dados analítico . Os fluxos de dados criados no Power Apps podem ser de dois tipos: padrão ou analítico. Este cenário abrange apenas o uso de um fluxo de dados do Power BI criado e gerenciado no serviço do Power BI.

Nota

O cenário de preparação de dados de autoatendimento é um dos cenários de BI de autoatendimento. Para obter uma lista completa dos cenários de autoatendimento, consulte o artigo Cenários de uso do Power BI.

Por uma questão de brevidade, alguns aspetos descritos no tópico Cenários de colaboração e entrega de conteúdo não são abordados neste artigo. Para uma cobertura completa, leia esses artigos primeiro.

Diagrama de cenário

O diagrama a seguir mostra uma visão geral de alto nível das ações mais comuns do usuário e dos componentes do Power BI que dão suporte à preparação de dados de autoatendimento. O foco principal é criar um fluxo de dados no Power Query Online que se torne uma fonte de dados para vários modelos semânticos (anteriormente conhecidos como conjuntos de dados). O objetivo é que muitos modelos semânticos aproveitem a preparação de dados feita uma vez pelo fluxo de dados.

O diagrama mostra a preparação de dados de autoatendimento, que trata de fluxos de dados para centralizar o trabalho de limpeza e transformação de dados. Os itens no diagrama são descritos na tabela abaixo.

Gorjeta

Recomendamos que você baixe o diagrama de cenário se quiser incorporá-lo em sua apresentação, documentação ou postagem de blog, ou imprimi-lo como um pôster de parede. Como é uma imagem SVG (Scalable Vetor Graphics), você pode dimensioná-la para cima ou para baixo sem perda de qualidade.

O diagrama de cenário descreve as seguintes ações, ferramentas e recursos do usuário:

Item Descrição
Ponto 1. O criador do fluxo de dados desenvolve uma coleção de tabelas dentro de um fluxo de dados do Power BI. Para um fluxo de dados destinado à reutilização, é comum (mas não obrigatório) que o criador pertença a uma equipe centralizada que ofereça suporte a usuários além dos limites organizacionais (como TI, BI corporativo ou Centro de Excelência).
Ponto 2. O fluxo de dados se conecta a dados de uma ou mais fontes de dados.
Ponto 3. Algumas fontes de dados podem exigir um gateway de dados local ou um gateway VNet para atualização de dados, como aqueles que residem em uma rede organizacional privada. Esses gateways são usados para criar o fluxo de dados no Power Query Online, que é uma versão baseada na Web do Power Query, e atualizar o fluxo de dados.
Ponto 4. Os fluxos de dados são desenvolvidos utilizando o Power Query Online. A interface familiar do Power Query no Power Query Online simplifica a transição do Power BI Desktop.
Ponto 5. O fluxo de dados é salvo como um item em um espaço de trabalho dedicado a armazenar e proteger fluxos de dados. Uma agenda de atualização de fluxo de dados é necessária para manter os dados atualizados (não representados no diagrama de cenário).
Ponto 6. O fluxo de dados pode ser reutilizado como fonte de dados por criadores de conteúdo e por outros modelos semânticos que podem residir em espaços de trabalho diferentes.
Ponto 7. O criador do modelo semântico desenvolve um novo modelo de dados usando o Power BI Desktop. O criador do modelo semântico pode utilizar todas as capacidades do Power Query no Power BI Desktop. Opcionalmente, eles podem aplicar outras etapas de consulta para transformar ainda mais os dados de fluxo de dados ou mesclar a saída de fluxo de dados.
Ponto 8. Quando pronto, o criador do modelo semântico publica o arquivo do Power BI Desktop (.pbix) que contém o modelo de dados no serviço do Power BI. A atualização para o modelo semântico é gerenciada separadamente do fluxo de dados (não representado no diagrama de cenário).
Ponto 9. Outros criadores de modelos semânticos de autoatendimento podem criar novos modelos de dados no Power BI Desktop usando o fluxo de dados como uma fonte de dados.
Ponto 10. No Portal de administração, os administradores do Power BI podem configurar conexões do Azure para armazenar dados de fluxo de dados em sua conta do Azure Data Lake Storage Gen2 (ADLS Gen2). As configurações incluem a atribuição de uma conta de armazenamento no nível do locatário e a habilitação de permissões de armazenamento no nível do espaço de trabalho.
Ponto 11. Os administradores do Power BI gerenciam as configurações no Portal de administração.
Ponto 12. Por padrão, os fluxos de dados armazenam dados usando o armazenamento interno gerenciado pelo serviço do Power BI. Opcionalmente, a saída de dados pelo fluxo de dados pode ser armazenada na conta ADLS Gen2 da organização. Esse tipo de armazenamento às vezes é chamado de traga seu próprio data lake. Um benefício de armazenar dados de fluxo de dados no data lake é que eles podem ser acessados e consumidos por outras ferramentas de BI.
Ponto 13. Os dados de fluxo de dados no ADLS Gen2 são armazenados em um contêiner específico do Power BI conhecido como sistema de arquivos. Dentro desse contêiner, existe uma pasta para cada espaço de trabalho. Uma subpasta é criada para cada fluxo de dados, bem como para cada tabela. O Power BI gera um instantâneo sempre que os dados de fluxo de dados são atualizados. Os instantâneos são autodescritos, incluindo metadados e arquivos de dados.
Ponto 14. Os administradores do Azure gerenciam permissões para a conta ADLS Gen2 da organização.
Ponto 15. Os administradores do Power BI supervisionam e monitoram a atividade no serviço do Power BI.

Gorjeta

Recomendamos que você revise também o cenário de uso de preparação avançada de dados. Baseia-se em conceitos introduzidos neste cenário.

Pontos principais

A seguir estão alguns pontos-chave a serem enfatizados sobre o cenário de preparação de dados de autoatendimento.

Fluxos de Dados

Um fluxo de dados compreende uma coleção de tabelas (também conhecidas como entidades). Todo o trabalho para criar um fluxo de dados é feito no Power Query Online. Você pode criar fluxos de dados em vários produtos, incluindo Power Apps, Dynamics 365 Customer Insights e Power BI.

Nota

Não é possível criar fluxos de dados em um espaço de trabalho pessoal no serviço do Power BI.

Suporte a criadores de modelos semânticos

O diagrama de cenário mostra o uso de um fluxo de dados do Power BI para fornecer dados preparados a outros criadores de modelos semânticos de autoatendimento.

Nota

O modelo semântico usa o fluxo de dados como uma fonte de dados. Um relatório não pode se conectar diretamente a um fluxo de dados.

Aqui estão algumas vantagens de usar fluxos de dados do Power BI:

  • Os criadores de modelos semânticos utilizam a mesma interface familiar do Power Query encontrada no Power BI Desktop.
  • A lógica de preparação e transformação de dados definida por um fluxo de dados pode ser reutilizada muitas vezes porque é centralizada.
  • Quando são feitas alterações na lógica de preparação de dados no fluxo de dados, pode não ser necessário atualizar modelos de dados dependentes. Remover ou renomear colunas, ou alterar tipos de dados de coluna, exigirá a atualização de modelos de dados dependentes.
  • Os dados pré-preparados podem ser facilmente disponibilizados aos criadores de modelos semânticos do Power BI. A reutilização é particularmente útil para tabelas comumente usadas, especialmente tabelas de dimensão, como data, cliente e produto.
  • O nível de esforço exigido pelos criadores de modelos semânticos é reduzido porque o trabalho de preparação de dados foi dissociado do trabalho de modelagem de dados.
  • Menos criadores de modelos semânticos precisam de acesso direto aos sistemas de origem. Os sistemas de origem podem ser complexos de consultar e podem exigir permissões de acesso especializadas.
  • O número de atualizações executadas em sistemas de origem é reduzido porque as atualizações do modelo semântico se conectam aos fluxos de dados e não aos sistemas de origem dos quais os fluxos de dados extraem dados.
  • Os dados de fluxo de dados representam um instantâneo no tempo e promovem consistência quando usados por muitos modelos semânticos.
  • Dissociar a lógica de preparação de dados em fluxos de dados pode ajudar a melhorar o sucesso da atualização do modelo semântico. Se uma atualização de fluxo de dados falhar, os modelos semânticos serão atualizados usando a última atualização de fluxo de dados bem-sucedida.

Gorjeta

Crie tabelas de fluxo de dados aplicando princípios de design de esquema em estrela. Um design de esquema em estrela é adequado para criar modelos semânticos do Power BI. Além disso, refine a saída do fluxo de dados para aplicar nomes amigáveis e usar tipos de dados específicos. Essas técnicas promovem a consistência em modelos semânticos dependentes e ajudam a reduzir a quantidade de trabalho que os criadores de modelos semânticos precisam fazer.

Flexibilidade do criador de modelos semânticos

Quando um criador de modelo semântico se conecta a um fluxo de dados no Power BI Desktop, o criador não está limitado a usar a saída exata do fluxo de dados. Eles ainda têm a funcionalidade completa do Power Query disponível para eles. Essa funcionalidade é útil se for necessário um trabalho adicional de preparação de dados ou se os dados exigirem uma transformação adicional.

Recursos avançados de fluxo de dados

Há muitas técnicas de design, padrões e práticas recomendadas para fluxos de dados que podem levá-los do autosserviço para o pronto para a empresa. Os fluxos de dados em um espaço de trabalho que tem seu modo de licença definido como Premium por usuário, capacidade Premium ou capacidade de malha podem se beneficiar de recursos avançados.

Importante

Às vezes, este artigo se refere ao Power BI Premium ou suas assinaturas de capacidade (SKUs P). Lembre-se de que a Microsoft está atualmente consolidando opções de compra e desativando as SKUs do Power BI Premium por capacidade. Em vez disso, os clientes novos e existentes devem considerar a compra de assinaturas de capacidade de malha (SKUs F).

Para obter mais informações, consulte Atualização importante chegando ao licenciamento do Power BI Premium e Perguntas frequentes sobre o Power BI Premium.

Nota

Um dos recursos avançados é a atualização incremental para fluxos de dados. Embora a atualização incremental para modelos semânticos seja um recurso do Power BI Pro, a atualização incremental para fluxos de dados é um recurso Premium.

Para saber mais sobre os recursos avançados de fluxo de dados, consulte o cenário de uso de preparação avançada de dados.

Fluxo de dados e atualização do modelo semântico

Como mencionado anteriormente, um fluxo de dados é uma fonte de dados para modelos semânticos. Na maioria dos casos, várias agendas de atualização de dados estão envolvidas: uma para o fluxo de dados e outra para cada modelo semântico. Como alternativa, é possível usar o DirectQuery do modelo semântico para o fluxo de dados, que é um recurso Premium (não representado no diagrama de cenário).

Azure Data Lake Storage Gen2

No Microsoft Azure, uma conta ADLS Gen2 é um tipo específico de conta de Armazenamento do Azure que tem o namespace hierárquico habilitado. O ADLS Gen2 tem vantagens de desempenho, gerenciamento e segurança para cargas de trabalho analíticas operacionais. Por padrão, os fluxos de dados do Power BI usam armazenamento interno, que é uma conta de data lake interna gerenciada pelo serviço do Power BI. Opcionalmente, as organizações podem trazer seu próprio data lake conectando-se à conta ADLS Gen2 de sua organização.

Aqui estão algumas vantagens de usar a conta data lake da organização:

  • Os dados armazenados por um fluxo de dados do Power BI podem (opcionalmente) ser acessados do data lake por outros usuários ou processos. Isso é útil quando a reutilização do fluxo de dados ocorre além do Power BI. Por exemplo, os dados podem ser acessados pelo Azure Data Factory.
  • Os dados no data lake podem (opcionalmente) ser gerenciados por outras ferramentas ou sistemas. Nesse caso, o Power BI poderia consumir os dados em vez de gerenciá-los (não representado no diagrama de cenário).

Armazenamento no nível do locatário

A seção Conexões do Azure do Portal de administração inclui uma configuração para configurar uma conexão com uma conta ADLS Gen2. Definir essa configuração permite trazer seu próprio data lake. Depois de configurado, você pode definir espaços de trabalho para usar essa conta data lake.

Importante

Definir conexões do Azure não significa que todos os fluxos de dados no locatário do Power BI são armazenados nessa conta por padrão. Para usar uma conta de armazenamento explícita (em vez de armazenamento interno), cada espaço de trabalho deve estar especificamente conectado.

É fundamental definir as conexões do Azure do espaço de trabalho antes de criar quaisquer fluxos de dados no espaço de trabalho. A mesma conta de armazenamento do Azure é usada para backups de modelo semântico do Power BI.

Armazenamento no nível do espaço de trabalho

Um administrador do Power BI pode definir uma configuração para permitir permissões de armazenamento no nível do espaço de trabalho (na seção Conexões do Azure do Portal de administração). Quando habilitada, essa configuração permite que os administradores de espaço de trabalho usem uma conta de armazenamento diferente da definida no nível do locatário. Habilitar essa configuração é particularmente útil para unidades de negócios descentralizadas que gerenciam seu próprio data lake no Azure.

Nota

A permissão de armazenamento no nível do espaço de trabalho no portal de administração aplica-se a todos os espaços de trabalho no locatário do Power BI.

Formato do Common Data Model

Os dados em uma conta ADLS Gen2 são armazenados na estrutura Common Data Model (CDM). A estrutura CDM é um formato de metadados que dita como o esquema autodescritivo, bem como os dados, são armazenados. A estrutura CDM permite consistência semântica em um formato padronizado para compartilhar dados entre vários aplicativos (não representado no diagrama de cenário).

Publicar em espaços de trabalho separados

Há várias vantagens em publicar um fluxo de dados em um espaço de trabalho separado de onde os modelos semânticos dependentes são armazenados. Uma vantagem é a clareza sobre quem é responsável por gerenciar quais tipos de conteúdo (se você tiver pessoas diferentes lidando com responsabilidades diferentes). Outra vantagem é que permissões específicas de espaço de trabalho podem ser atribuídas para cada tipo de conteúdo.

Nota

Não é possível criar fluxos de dados em um espaço de trabalho pessoal no serviço do Power BI.

O cenário de uso de preparação avançada de dados descreve como configurar vários espaços de trabalho para fornecer melhor flexibilidade ao oferecer suporte a criadores de autoatendimento de nível empresarial.

Configuração do gateway

Normalmente, um gateway de dados local é necessário para se conectar a fontes de dados que residem em uma rede organizacional privada ou em uma rede virtual.

Um gateway de dados é necessário quando:

  • Criação de um fluxo de dados no Power Query Online que se liga a dados organizacionais privados.
  • Atualizar um fluxo de dados que se conecta a dados organizacionais privados.

Gorjeta

Os fluxos de dados exigem um gateway de dados centralizado no modo padrão. Um gateway no modo pessoal não é suportado ao trabalhar com fluxos de dados.

Supervisão do sistema

O log de atividades registra as atividades do usuário que ocorrem no serviço do Power BI. Os administradores do Power BI podem usar os dados do log de atividades coletados para executar auditorias para ajudá-los a entender os padrões de uso e a adoção. O registro de atividades também é valioso para dar suporte aos esforços de governança, auditorias de segurança e requisitos de conformidade. Com um cenário de preparação de dados de autoatendimento, é particularmente útil controlar o uso de fluxos de dados.

No próximo artigo da série, saiba mais sobre o cenário de uso de preparação avançada de dados.