Cenários de uso do Power BI: preparação de dados de autoatendimento
Observação
Este artigo faz parte da série de artigos sobre o Planejamento de implantação do Power BI. Esta série se concentra principalmente na experiência do Power BI no Microsoft Fabric. Para obter uma introdução à série, confira Planejamento de implementação do Power BI.
Geralmente, a preparação de dados (às vezes, conhecida como ETL, que é um acrônimo para Extrair, Transformar e Carregar) envolve um volume significativo de trabalho, dependendo da qualidade e da estrutura dos dados de origem. O cenário de uso da preparação de dados de autoatendimento se concentra na reutilização das atividades de preparação de dados por parte dos analistas de negócios. Essa meta de reutilização é atingida realocando o trabalho de preparação de dados do Power Query (em arquivos individuais do Power BI Desktop) para o Power Query Online (usando um fluxo de dados do Power BI). A centralização da lógica ajuda a promover uma única fonte da verdade e reduz o nível de esforço exigido para outros criadores de conteúdo.
Os fluxos de dados são criados usando o Power Query Online em uma das várias ferramentas: o serviço do Power BI, o Power Apps ou o Dynamics 365 Customer Insights. Um fluxo de dados criado no Power BI é chamado de fluxo de dados analítico. Os fluxos de dados criados no Power Apps podem ser um dos dois tipos: padrão ou analítico. Esse cenário abrange apenas o uso de um fluxo de dados do Power BI criado e gerenciado no serviço do Power BI.
Observação
O cenário de preparação de dados de autoatendimento é um dos cenários do BI de autoatendimento. Para obter uma lista completa dos cenários de autoatendimento, confira o artigo Cenários de uso do Power BI.
Para simplificar, alguns aspectos descritos no tópico Cenários de colaboração e entrega de conteúdo não são abordados neste artigo. Para obter a cobertura completa, leia esses artigos primeiro.
Diagrama do cenário
O diagrama a seguir ilustra uma visão geral de alto nível das ações mais comuns do usuário e dos componentes do Power BI que dão suporte à preparação de dados de autoatendimento. O foco principal é criar um fluxo de dados no Power Query Online que se torna uma fonte de dados para vários modelos semânticos. A meta é que muitos modelos semânticos aproveitem a preparação de dados feita uma vez pelo fluxo de dados.
Dica
Recomendamos que você baixe o diagrama de cenário, caso deseje inseri-lo em sua apresentação, documentação ou postagem no blog, ou imprima-o como um pôster de parede. Como é uma imagem SVG (Elementos Gráficos Vetoriais Escaláveis), você pode escalá-la ou reduzi-la verticalmente sem perda de qualidade.
O diagrama do cenário ilustra as seguintes ações, ferramentas e recursos do usuário:
Item | Descrição |
---|---|
O criador de fluxo de dados desenvolve uma coleção de tabelas em um fluxo de dados do Power BI. Para um fluxo de dados destinado à reutilização, é comum (mas não obrigatório) que o criador pertença a uma equipe centralizada, que dê suporte a usuários além dos limites organizacionais (como TI, BI corporativo ou Centro de Excelência). | |
O fluxo de dados é conectado aos dados de uma ou mais fontes de dados. | |
Algumas fontes de dados podem exigir um gateway de dados local ou um gateway de VNet para atualização de dados, como aquelas que estão em uma rede organizacional particular. Esses gateways são usados tanto para criar o fluxo de dados no Power Query Online, que é uma versão baseada na Web do Power Query, quanto para atualizar o fluxo de dados. | |
Os fluxos de dados são desenvolvidos usando o Power Query Online. A interface clássica do Power Query no Power Query Online simplifica a transição do Power BI Desktop. | |
O fluxo de dados é salvo como item em um workspace dedicado a armazenar e proteger os fluxos de dados. Um agendamento de atualização de fluxo de dados é necessário para manter os dados atualizados (não ilustrado no diagrama do cenário). | |
O fluxo de dados pode ser reutilizado como uma fonte de dados por criadores de conteúdo e por outros modelos semânticos, que podem residir em diferentes workspaces. | |
O criador do modelo semântico desenvolve um novo modelo de dados usando o Power BI Desktop. O criador do modelo semântico pode usar os recursos completos do Power Query no Power BI Desktop. Opcionalmente, ele pode aplicar outras etapas de consulta para transformar ainda mais os dados do fluxo de dados ou mesclar a saída do fluxo de dados. | |
Quando pronto, o criador do modelo semântico publica o arquivo do Power BI Desktop (.pbix), que contém o modelo de dados no serviço do Power BI. A atualização do modelo semântico é gerenciada separadamente do fluxo de dados (não ilustrado no diagrama do cenário). | |
Outros criadores de modelos semânticos de autoatendimento podem criar novos modelos de dados no Power BI Desktop, usando o fluxo de dados como fonte de dados. | |
No portal do Administrador, os administradores do Power BI podem configurar as conexões do Azure para armazenar os dados do fluxo de dados na conta do ADLS Gen2 (Azure Data Lake Storage Gen2). As configurações incluem atribuir uma conta de armazenamento no nível do locatário e habilitar as permissões de armazenamento no nível do workspace. | |
Os administradores do Power BI gerenciam as configurações no portal do Administrador. | |
Por padrão, os fluxos de dados armazenam os dados usando o armazenamento interno gerenciado pelo serviço do Power BI. Opcionalmente, a saída de dados pelo fluxo de dados pode ser armazenada na conta do ADLS Gen2 da organização. Às vezes, esse tipo de armazenamento é chamado de traga seu próprio data lake. Um benefício de armazenar os dados do fluxo de dados no data lake é que eles podem ser acessados e consumidos por outras ferramentas do BI. | |
Os dados do fluxo de dados no ADLS Gen2 são armazenados em um contêiner específico do Power BI conhecido como sistema de arquivos. Nesse contêiner, existe uma pasta para cada workspace. Uma subpasta é criada para cada fluxo de dados, bem como para cada tabela. O Power BI gera um instantâneo sempre que os dados do fluxo de dados são atualizados. Os instantâneos são autodescritivos, compreendendo metadados e arquivos de dados. | |
Os administradores do Azure gerenciam as permissões da conta do ADLS Gen2 da organização. | |
Os administradores do Power BI supervisionam e monitoram a atividade no serviço do Power BI. |
Dica
Recomendamos que você examine também o cenário de uso de preparação de dados avançados. Ele complementa os conceitos apresentados nesse cenário.
Pontos-chave
Veja a seguir alguns pontos importantes a serem enfatizadas sobre o cenário de preparação de dados de autoatendimento.
Fluxos de dados
Um fluxo de dados é composto por uma coleção de tabelas (também conhecidas como entidades). Todo o trabalho para criar um fluxo de dados é feito no Power Query Online. Você pode criar fluxos de dados em vários produtos, incluindo no Power Apps, no Dynamics 365 Customer Insights e no Power BI.
Observação
Você não pode criar fluxos de dados em um workspace pessoal no serviço do Power BI.
Dar suporte a criadores de modelos semânticos
O diagrama do cenário ilustra o uso de um fluxo de dados do Power BI para fornecer dados preparados para outros criadores de modelos semânticos de autoatendimento.
Observação
O modelo semântico usa o fluxo de dados como uma fonte de dados. Um relatório não pode ser conectado diretamente a um fluxo de dados.
Estas são algumas vantagens de usar os fluxos de dados do Power BI:
- Os criadores de modelos semânticos usam a mesma interface clássica do Power Query encontrada no Power BI Desktop.
- A lógica de preparação de dados e de transformação de dados, definida por um fluxo de dados, pode ser reutilizada muitas vezes, pois é centralizada.
- Quando a lógica de preparação de dados é alterada no fluxo de dados, a atualização dos modelos de dados dependentes pode não ser necessária. Remover ou renomear colunas ou alterar tipos de dados de coluna exigirá a atualização dos modelos de dados dependentes.
- Os dados pré-preparados podem ser facilmente disponibilizados para os criadores de modelos semânticos do Power BI. A reutilização é especificamente útil para tabelas normalmente usadas, sobretudo as tabelas de dimensão, como data, cliente e produto.
- O nível de esforço necessário para os criadores de modelos semânticos é reduzido, pois o trabalho de preparação de dados foi desacoplado do trabalho de modelagem de dados.
- Menos criadores de modelos semânticos precisam de acesso direto aos sistemas de origem. Os sistemas de origem podem ser complexos de consultar e podem exigir permissões de acesso especializadas.
- O número de atualizações executadas nos sistemas de origem é reduzido, pois as atualizações de modelo semântico são conectadas aos fluxos de dados e não aos sistemas de origem dos quais os fluxos de dados extraem dados.
- Os dados do fluxo de dados representam um instantâneo no tempo e promovem consistência, quando usados por muitos modelos semânticos.
- O desacoplamento da lógica de preparação de dados para os fluxos de dados pode ajudar a aumentar o sucesso da atualização do modelo semântico. No caso de uma falha de atualização do fluxo de dados, os modelos semânticos serão atualizados usando a última atualização bem-sucedida do fluxo de dados.
Dica
Crie as tabelas de fluxo de dados aplicando os princípios de design do esquema em estrela. Um design de esquema em estrela é adequado para criar modelos semânticos do Power BI. Além disso, refine a saída do fluxo de dados para aplicar nomes amigáveis e use tipos de dados específicos. Essas técnicas promovem a consistência em modelos semânticos dependentes e ajudam a reduzir a quantidade de trabalho que os criadores de modelos semânticos precisam fazer.
Flexibilidade do criador de modelos semânticos
Quando um criador de modelos semânticos se conecta a um fluxo de dados no Power BI Desktop, ele não se limita a usar a saída exata do fluxo de dados. Ele ainda conta com a funcionalidade completa do Power Query disponível. Essa funcionalidade será útil, se forem necessários trabalhos adicionais de preparação de dados ou se os dados exigirem uma transformação adicional.
Recursos avançados do fluxo de dados
Há muitas técnicas, padrões e melhores práticas de design para fluxos de dados que podem levá-los do autoatendimento ao pronto para a empresa. Fluxos de dados em um workspace que tem seu modo de licença definido como Premium por usuário, capacidade Premiumou de capacidade do Fabric podem se beneficiar de recursos avançados.
Importante
Às vezes, este artigo se refere ao Power BI Premium ou às suas assinaturas de capacidade (P SKUs). Lembre-se de que a Microsoft está consolidando atualmente as opções de compra e desativando os SKUs do Power BI Premium por capacidade. Em vez disso, os clientes novos e existentes devem considerar a compra de SKUs (assinaturas de capacidade do Fabric).
Para obter mais informações, consulte Atualização importante chegando ao de licenciamento do Power BI Premium e Perguntas frequentes do Power BI Premium.
Observação
Um dos recursos avançados é a atualização incremental para fluxos de dados. Embora a atualização incremental de modelos semânticos seja um recurso do Power BI Pro, a atualização incremental de fluxos de dados é um recurso Premium.
Para saber mais sobre os recursos avançados do fluxo de dados, confira o cenário de uso de preparação de dados avançados.
Atualização de modelos semânticos e do fluxo de dados
Conforme mencionado anteriormente, um fluxo de dados é uma fonte de dados para modelos semânticos. Na maioria dos casos, vários agendamentos de atualização de dados estão envolvidos: um para o fluxo de dados e outro para cada modelo semântico. Como alternativa, é possível usar o DirectQuery do modelo semântico para o fluxo de dados, que é um recurso Premium (não ilustrado no diagrama do cenário).
Azure Data Lake Storage Gen2
No Microsoft Azure, uma conta do ADLS Gen2 é um tipo específico de conta de Armazenamento do Azure que tem o namespace hierárquico habilitado. O ADLS Gen2 tem vantagens de desempenho, gerenciamento e segurança para cargas de trabalho operacionais analíticas. Por padrão, os fluxos de dados do Power BI usam o armazenamento interno, que é uma conta interna do data lake gerenciada pelo serviço do Power BI. Opcionalmente, as organizações podem trazer seu próprio data lake ao se conectar à conta do ADLS Gen2 da organização.
Esta são algumas vantagens de usar a conta do data lake da organização:
- Os dados armazenados por um fluxo de dados do Power BI podem (opcionalmente) ser acessados no data lake por outros usuários ou processos. Isso é útil quando a reutilização do fluxo de dados ocorre além do Power BI. Por exemplo, os dados podem ser acessados pelo Azure Data Factory.
- Os dados no data lake podem (opcionalmente) ser gerenciados por outras ferramentas ou sistemas. Nesse caso, o Power BI pode consumir os dados, em vez de gerenciá-los (não ilustrado no diagrama do cenário).
Armazenamento no nível do locatário
A seção Conexões do Azure no portal do Administrador inclui uma configuração para a conexão com uma conta do ADLS Gen2. Essa configuração permite trazer seu próprio data lake. Uma vez configurado, você pode definir espaços de trabalho para usar essa conta do Data Lake.
Importante
Definir as conexões do Azure não significa que todos os fluxos de dados no locatário do Power BI serão armazenados nessa conta por padrão. Para usar uma conta de armazenamento explícita (em vez do armazenamento interno), cada workspace deve estar conectado especificamente.
É fundamental definir as conexões do Azure do workspace, antes de criar os fluxos de dados no workspace. A mesma conta de armazenamento do Azure é usada para os backups de modelos semânticos do Power BI.
Armazenamento no nível do workspace
Um administrador do Power BI pode definir uma configuração para conceder permissões de armazenamento no nível do workspace (na seção Conexões do Azure do portal do Administrador). Quando habilitada, essa configuração permite que os administradores de workspace usem uma conta de armazenamento diferente da que foi definida no nível do locatário. Habilitar essa configuração é especificamente útil para unidades de negócios descentralizadas, que gerenciam seu próprio data lake no Azure.
Observação
A permissão de armazenamento no nível do workspace no portal do Administrador se aplica a todos os workspaces no locatário do Power BI.
Formato do Common Data Model
Os dados em uma conta do ADLS Gen2 são armazenados na estrutura do CDM (Common Data Model). A estrutura do CDM é um formato de metadados que determina como o esquema autodescritivo e os dados são armazenados. A estrutura do CDM habilita a consistência semântica em um formato padronizado para compartilhamento de dados em vários aplicativos (não ilustrado no diagrama do cenário).
Publicar em workspaces diferentes
Há várias vantagens em publicar um fluxo de dados em um workspace diferente daquele em que os modelos semânticos dependentes são armazenados. Uma vantagem é a clareza sobre quem é responsável por gerenciar quais tipos de conteúdo (se você tiver pessoas diferentes lidando com diferentes responsabilidades). Outra vantagem é que permissões específicas do workspace podem ser atribuídas para cada tipo de conteúdo.
Observação
Você não pode criar fluxos de dados em um workspace pessoal no serviço do Power BI.
O cenário de uso de preparação de dados avançados descreve como configurar vários workspaces para fornecer maior flexibilidade ao dar suporte aos criadores de autoatendimento no nível corporativo.
Instalação do gateway
Normalmente, é necessário um gateway de dados local para se conectar a fontes de dados que residem em uma rede organizacional privada ou rede virtual.
Um gateway de dados é necessário nos casos a seguir:
- Criação de um fluxo de dados no Power Query Online que se conecta a dados organizacionais privados.
- Atualização de um fluxo de dados que se conecta a dados organizacionais privados.
Dica
Os fluxos de dados exigem um gateway de dados centralizado no modo padrão. Não há suporte para um gateway no modo pessoal ao trabalhar com fluxos de dados.
Supervisão do sistema
O log de atividades registra as atividades do usuário que ocorrem no serviço do Power BI. Os administradores do Power BI podem usar os dados de log de atividades coletados para executar a auditoria, a fim de ajudar a entender os padrões de uso e a adoção. O log de atividades também é importante para dar suporte a esforços de governança, auditorias de segurança e requisitos de conformidade. Com um cenário de preparação de dados de autoatendimento, é especificamente útil controlar o uso de fluxos de dados.
Conteúdo relacionado
No próximo artigo da série, saiba mais sobre o cenário de uso de preparação de dados avançados.