Configurar o armazenamento de fluxo de dados para usar o Azure Data Lake Gen 2

Os dados usados com o Power BI são armazenados no armazenamento interno fornecido pelo Power BI por padrão. Com a integração de fluxos de dados e o Azure Data Lake Storage Gen 2 (ADLS Gen2), você pode armazenar seus fluxos de dados na conta do Azure Data Lake Storage Gen2 da sua organização. Esse recurso essencialmente permite que você "traga seu próprio armazenamento" para os fluxos de dados do Power BI e estabeleça uma conexão no nível do locatário ou do espaço de trabalho.

Motivos para usar o espaço de trabalho ADLS Gen 2 ou a conexão de locatário

Depois de anexar seu fluxo de dados, o Power BI configura e salva uma referência para que agora você possa ler e gravar dados em seu próprio ADLS Gen 2. O Power BI armazena os dados no formato de modelo de dados comum (CDM), que captura metadados sobre seus dados, além dos dados reais gerados pelo próprio fluxo de dados. Esse recurso desbloqueia muitos recursos poderosos e permite que seus dados e os metadados associados no formato CDM agora sirvam cenários de extensibilidade, automação, monitoramento e backup. Quando você disponibiliza esses dados e é amplamente acessível em seu próprio ambiente, isso permite que você democratize os insights e os dados criados em sua organização. Ele também desbloqueia a capacidade de criar outras soluções com uma ampla gama de complexidade. Suas soluções podem ser aplicativos e soluções personalizados com reconhecimento de CDM na Power Platform, Azure e aqueles disponíveis por meio de ecossistemas de parceiros e fornecedores independentes de software (ISV). Ou você pode criar um aplicativo para ler um CSV. Seus engenheiros de dados, cientistas de dados e analistas agora podem trabalhar, usar e reutilizar um conjunto comum de dados que é curado no ADLS Gen 2.

Há duas maneiras de configurar qual loja ADLS Gen 2 usar: você pode usar uma conta ADLS Gen 2 atribuída pelo locatário ou pode trazer sua própria loja ADLS Gen 2 em um nível de espaço de trabalho.

Pré-requisitos

  • Para trazer sua própria conta ADLS Gen 2, você deve ter permissão de proprietário na camada de conta de armazenamento. As permissões no nível do grupo de recursos ou da assinatura não funcionarão. Se você for um administrador, ainda deverá atribuir a si mesmo a permissão de proprietário. Atualmente não suporta contas de armazenamento ADLS Gen2 atrás de um firewall.

  • A conta de armazenamento deve ser criada com o namespace hierárquico (HNS) habilitado.

  • A conta de armazenamento deve ser criada no mesmo locatário do Microsoft Entra que o locatário do Power BI.

  • O usuário deve ter a função de Proprietário de Dados de Blob de Armazenamento, a função de Leitor de Dados de Blob de Armazenamento e uma função de Proprietário no nível da conta de armazenamento (o escopo deve ser este recurso e não herdado). Quaisquer alterações de função aplicadas podem levar alguns minutos para serem sincronizadas e devem ser sincronizadas antes que as etapas a seguir possam ser concluídas no serviço do Power BI.

  • A região locatária do espaço de trabalho do Power BI deve ser a mesma que a região da conta de armazenamento.

  • TLS (Transport Layer Security) versão 1.2 (ou superior) é necessário para proteger seus endpoints. Os navegadores da Web e outros aplicativos cliente que usam versões do TLS anteriores ao TLS 1.2 não poderão se conectar.

  • Não há suporte para anexar um fluxo de dados com o ADLS Gen 2 por trás da autenticação multifator (MFA).

  • Finalmente, você pode se conectar a qualquer ADLS Gen 2 a partir do portal de administração, mas se você se conectar diretamente a um espaço de trabalho, você deve primeiro garantir que não haja fluxos de dados no espaço de trabalho antes de se conectar.

Nota

Traga seu próprio armazenamento (Azure Data Lake Gen 2) não está disponível no serviço Power BI para clientes do GCC do governo dos EUA. Para obter mais informações sobre quais recursos estão disponíveis e quais não estão, consulte Disponibilidade de recursos do Power BI para clientes do governo dos EUA.

A tabela a seguir descreve as permissões para ADLS e para Power BI necessárias para ADLS Gen 2 e Power BI:

Ação Permissões ADLS Permissões mínimas do Power BI
Conectar o ADLS Gen 2 ao locatário do Power BI Proprietário Administrador do Power BI
Conectar o ADLS Gen 2 ao espaço de trabalho Proprietário Administrador de área de trabalho
Criar fluxos de dados do Power BI gravando de volta na conta ADLS conectada Não aplicável Colaborador do espaço de trabalho
Consumir fluxo de dados do Power BI Não aplicável Visualizador de espaço de trabalho

Conectar-se a um Azure Data Lake Gen 2 em um nível de espaço de trabalho

Navegue até um espaço de trabalho que não tenha fluxos de dados. Selecione Configurações do espaço de trabalho. Escolha a guia Conexões do Azure e selecione a seção Armazenamento.

Screenshot of the Workspace settings pane on the Azure connections tab.

A opção Usar conexão padrão do Azure estará visível se o administrador já tiver configurado uma conta ADLS Gen 2 atribuída pelo locatário. Tem duas opções:

  • Use a conta ADLS Gen 2 configurada pelo locatário selecionando a caixa chamada Usar a conexão padrão do Azure ou
  • Selecione Conectar ao Azure para apontar para uma nova conta de Armazenamento do Azure .

Quando você seleciona Conectar ao Azure, o Power BI recupera uma lista de assinaturas do Azure às quais você tem acesso. Preencha as listas suspensas. Em seguida, escolha uma assinatura válida do Azure, grupo de recursos e conta de armazenamento que tenha a opção de namespace hierárquico habilitada, que é o sinalizador ADLS Gen2. A conta pessoal usada para se conectar ao Azure é usada apenas uma vez, para definir a conexão inicial e conceder à conta de serviço do Power BI direitos para ler e gravar dados, após o que a conta de usuário original não é mais necessária para manter a conexão ativa.

Screenshot of the Settings window after choosing Connecting to Azure.

Depois de escolher o selecionado, selecione Salvar e agora você conectou com êxito o espaço de trabalho à sua própria conta ADLS Gen2. O Power BI configura automaticamente a conta de armazenamento com as permissões necessárias e configura o sistema de arquivos do Power BI onde os dados serão gravados. Neste ponto, os dados de cada fluxo de dados dentro desse espaço de trabalho serão gravados diretamente nesse sistema de arquivos, que pode ser usado com outros serviços do Azure. Agora você tem uma única fonte para todos os seus dados organizacionais ou departamentais.

Configuração de conexões do Azure

Configurar conexões do Azure é uma configuração opcional com mais propriedades que podem ser definidas opcionalmente:

  • Armazenamento em nível de locatário, que permite definir um padrão e/ou
  • Armazenamento no nível do espaço de trabalho, que permite especificar a conexão por espaço de trabalho

Opcionalmente, você pode configurar o armazenamento no nível do locatário se quiser usar apenas um data lake centralizado ou se quiser que esse armazenamento seja a opção padrão. Não começamos automaticamente usando o padrão para permitir flexibilidade em sua configuração, então você tem flexibilidade para configurar os espaços de trabalho que usam essa conexão como achar melhor. Se você configurar uma conta ADLS Gen 2 atribuída pelo locatário, ainda precisará configurar cada espaço de trabalho para usar essa opção padrão.

Você pode, opcionalmente ou adicionalmente, configurar permissões de armazenamento no nível do espaço de trabalho como uma opção separada, o que fornece total flexibilidade para definir uma conta ADLS Gen 2 específica em uma base de espaço de trabalho por espaço de trabalho.

Para resumir, se as permissões de armazenamento no nível do locatário e no nível do espaço de trabalho forem permitidas, os administradores do espaço de trabalho podem, opcionalmente, usar a conexão ADLS padrão ou optar por configurar outra conta de armazenamento separada do padrão. Se o armazenamento do locatário não estiver definido, os administradores do espaço de trabalho podem, opcionalmente, configurar contas ADLS em uma base de espaço de trabalho por espaço de trabalho. Por fim, se o armazenamento no nível do locatário estiver selecionado e o armazenamento no nível do espaço de trabalho não for permitido, os administradores do espaço de trabalho podem, opcionalmente, configurar seus fluxos de dados para usar essa conexão.

Estrutura e formato para conexões de espaço de trabalho ADLS Gen 2

Na conta de armazenamento ADLS Gen 2, todos os fluxos de dados são armazenados no contêiner powerbi do sistema de arquivos.

A estrutura do contêiner powerbi tem esta aparência: <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> e <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

O local onde os fluxos de dados armazenam dados na hierarquia de pastas do ADLS Gen 2 é o mesmo, independentemente de o espaço de trabalho estar localizado em capacidade compartilhada ou capacidade Premium.

O exemplo a seguir usa a tabela Orders do exemplo Northwind Odata.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

Na imagem anterior:

  • O model.json é a versão mais recente do fluxo de dados.
  • Os model.json.snapshots são todas as versões anteriores do fluxo de dados. Esse histórico é útil se você precisar de uma versão anterior do mashup ou configurações incrementais.
  • O tablename é a pasta que contém os dados resultantes após a conclusão de uma atualização do fluxo de dados.

Apenas escrevemos nesta conta de armazenamento e atualmente não eliminamos dados. Portanto, mesmo após a desvinculação, não excluímos da conta ADLS, portanto, todos os arquivos mencionados na lista anterior ainda são armazenados.

Nota

Os fluxos de dados permitem vincular ou referenciar tabelas em outros fluxos de dados. Em tais fluxos de dados, o arquivo model.json pode se referir a outro model.json de outro fluxo de dados no mesmo ou em outro espaço de trabalho.

Movendo arquivos entre/dentro de contas de armazenamento ADLS Gen 2

Ao mover um fluxo de dados de uma conta de armazenamento ADLS Gen2 para outra, você precisa certificar-se de que os caminhos no arquivo model.json sejam atualizados para refletir o novo local. Isso ocorre porque o arquivo model.json contém o caminho para o fluxo de dados e o caminho para os dados. Se você não atualizar os caminhos, o fluxo de dados não poderá encontrar os dados e causará erros de permissão. Para atualizar os caminhos, você pode usar as seguintes etapas:

  • Abra o arquivo model.json em um editor de texto.
  • Encontre o URL da conta de armazenamento e substitua-o pelo novo URL da conta de armazenamento.
  • Guarde o ficheiro.
  • Substitua o arquivo model.json existente na conta de armazenamento ADLS Gen2.

Extensibilidade para conexões de espaço de trabalho ADLS Gen 2

Se você estiver conectando o ADLS Gen 2 ao Power BI, poderá executar essa ação no nível do espaço de trabalho ou do locatário. Certifique-se de que tem o nível de acesso correto. Saiba mais em Pré-requisitos.

A estrutura de armazenamento adere ao formato Common Data Model. Saiba mais sobre a estrutura de armazenamento e o MDL visitando Qual é a estrutura de armazenamento para fluxos de dados analíticos e Usar o Modelo de Dados Comum para otimizar o Azure Data Lake Storage Gen2.

Depois de configurado corretamente, os dados e metadados ficam sob seu controle. Muitos aplicativos conhecem o CDM e os dados podem ser estendidos usando o Azure, PowerApps e PowerAutomate. Você também pode usar ecossistemas de terceiros em conformidade com o formato ou lendo os dados brutos.

Desanexar o Azure Data Lake Gen 2 de um espaço de trabalho ou locatário

Para remover uma conexão em um nível de espaço de trabalho, você deve primeiro garantir que todos os fluxos de dados no espaço de trabalho sejam excluídos. Depois que todos os fluxos de dados tiverem sido removidos, selecione Desconectar nas configurações do espaço de trabalho. O mesmo se aplica a um locatário, mas você deve primeiro garantir que todos os espaços de trabalho também tenham sido desconectados da conta de armazenamento do locatário antes de poder se desconectar em um nível de locatário.

Desabilitar o Azure Data Lake Gen 2

No Portal de administração, em fluxos de dados, você pode desabilitar o acesso para que os usuários usem esse recurso e pode impedir que os administradores do espaço de trabalho tragam seu próprio Armazenamento do Azure.

Reverter a partir do Azure Data Lake Gen 2

Depois que o armazenamento de fluxo de dados tiver sido configurado para usar o Azure Data Lake Gen 2, não há como reverter automaticamente. O processo para retornar ao armazenamento gerenciado pelo Power BI é manual.

Para reverter a migração que você fez para a Gen 2, você precisa excluir seus fluxos de dados e recriá-los no mesmo espaço de trabalho. Então, como não excluímos dados do ADLS Gen 2, vá para o recurso em si e limpe os dados. Esta ação envolveria as seguintes etapas.

  1. Exporte uma cópia do fluxo de dados do Power BI. Ou copie o arquivo model.json. O arquivo model.json é armazenado no ADLS.

  2. Exclua os fluxos de dados.

  3. Desanexe o ADLS.

  4. Recrie os fluxos de dados usando a importação. Os dados de atualização incremental (se aplicável) precisarão ser excluídos antes da importação. Essa ação pode ser feita excluindo as partições relevantes no arquivo model.json.

  5. Configure políticas de atualização/recriação de atualização incremental.

Conecte-se aos dados usando o conector ADLS Gen 2

O escopo deste documento descreve as conexões de fluxos de dados do ADLS Gen 2 e não o conector do Power BI ADLS Gen 2. Trabalhar com o conector ADLS Gen 2 é um cenário separado, possivelmente aditivo. O conector ADLS simplesmente usa ADLS como uma fonte de dados. Assim, utilizar o Power Query Online para consultar esses dados não tem de estar no formato CDM, pode ser qualquer formato de dados que o cliente pretenda. Para obter mais informações, consulte Azure Data Lake Storage Gen2.

Os seguintes artigos fornecem mais informações sobre fluxos de dados e o Power BI: