Exportar dados do Dataverse no formato Delta Lake

2025-05-14

Use o Azure Synapse Link para Dataverse para exportar seus dados do Microsoft Dataverse no formato Delta Lake. Delta Lake é o formato nativo para Microsoft Fabric, bem como muitas outras ferramentas como Azure Databricks. A exportação de dados no formato Delta Lake diretamente do Dataverse elimina a necessidade de ter processos de conversão separados do Delta Lake por conta própria e acelera o tempo de insight. Este artigo fornece informações sobre esse recurso e mostra como executar as seguintes tarefas:

Explica o Delta Lake e o Parquet e por que você deve exportar dados neste formato.
Exporte seus dados do Dataverse para seu espaço de trabalho do Azure Synapse Analytics no formato do Delta Lake com o Azure Synapse Link.
Monitore seu Azure Synapse link e a conversão de dados.
Visualize seus dados do Azure Data Lake Storage Gen2.
Visualize seus dados da área de trabalho do Synapse.
Exiba dados no Microsoft Fabric.

O que é um Delta Lake?

Delta Lake é um projeto de código aberto que permite construir uma arquitetura de lakehouse sobre Data Lakes. O Delta Lake fornece transações ACID (atomicidade, consistência, isolamento e durabilidade), manipulação de metadados escalonáveis e unificação de streaming e processamento de dados em lote sobre os Data Lakes existentes. O Azure Synapse Analytics é compatível com Linux Foundation Delta Lake. A versão atual do Delta Lake incluída no Azure Synapse tem suporte de linguagem para Scala, PySpark e .NET. Mais informações: O que é o Delta Lake? Você também pode aprender mais com o Vídeo de introdução às Delta Tables.

O Apache Parquet é o formato de linha de base para o Delta Lake, permitindo que você aproveite os esquemas eficientes de compactação e codificação nativos do formato. O formato de arquivo Parquet usa compactação em colunas. É eficiente e economiza espaço de armazenamento. As consultas que buscam valores de coluna específicos não precisam ler os dados da linha inteira, melhorando assim o desempenho. Portanto, o pool de SQL sem servidor precisa de menos tempo e menos solicitações de armazenamento para ler os dados.

Por que usar um Delta Lake?

Escalabilidade: o Delta Lake foi desenvolvido com base na licença Apache de código aberto, projetada para atender aos padrões do setor para lidar com workloads de processamento de dados em larga escala.
Confiabilidade: o Delta Lake fornece transações ACID, garantindo consistência e confiabilidade de dados mesmo diante de falhas ou acessos simultâneos.
Desempenho: o Delta Lake aproveita o formato de armazenamento em colunas do Parquet, fornecendo melhores técnicas de compactação e codificação, o que pode levar a um melhor desempenho de consulta em comparação com arquivos CSV de consulta.
Custo-beneficio: o formato de arquivo Delta Lake é uma tecnologia de armazenamento de dados altamente compactada que oferece um potencial significativo de economia de armazenamento para empresas. Esse formato foi projetado especificamente para otimizar o processamento de dados e potencialmente reduzir a quantidade total de dados processados ou o tempo de execução necessário para a computação sob demanda.
Conformidade com a proteção de dados: o Delta Lake com o Azure Synapse Link fornece ferramentas e recursos, incluindo exclusão temporária e exclusão irreversível para cumprir vários regulamentos de privacidade de dados, incluindo Regulamento Geral sobre a Proteção de Dados (RGPD).

Como o Delta Lake funciona com o Azure Synapse Link para Dataverse?

Ao configurar um Azure Synapse Link para Dataverse, você pode habilitar o recurso de exportação para Delta Lake e conectar-se a um espaço de trabalho do Synapse e ao pool do Spark. O Azure Synapse exporta as tabelas selecionadas do Dataverse no formato CSV em intervalos de tempo designados, processando-as por meio de um trabalho do Spark de conversão do Delta Lake. Após a conclusão desse processo de conversão, os dados CSV ficam limpos para economia de armazenamento. Além disso, uma série de tarefas de manutenção são programadas para serem executadas diariamente, executando automaticamente processos de compactação e aspiração para mesclar e limpar arquivos de dados, otimizando ainda mais o armazenamento e melhorando o desempenho das consultas.

Importante

Se você estiver atualizando de CSV para Delta Lake com exibições personalizadas existentes, recomendamos atualizar o script para substituir todas as tabelas particionadas para non_partitioned. Faça isso procurando instâncias de _partitioned e substitua-as por uma cadeia de caracteres vazia.
Para a configuração do Dataverse, a função somente anexar é ativada por padrão para exportar dados CSV no modo appendonly. A tabela Delta Lake terá uma estrutura de atualização in-place porque a conversão do Delta Lake vem com um processo de mesclagem periódico.
Você precisa provisionar um pool do Spark (recursos de computação) em sua própria assinatura Azure para conversão Delta. Esse pool do Spark é usado para realizar conversões Delta periódicas com base no intervalo de tempo escolhido por você.
Não há custos incorridos com a criação de pools do Spark. As cobranças são incorridas apenas quando um trabalho do Spark for executado no pool do Spark de destino e quando a instância do Spark forstanciada sob demanda. Esses custos estão relacionados ao uso do espaço de trabalho Spark do Azure Synapse e são cobrados mensalmente. O custo de executar computação do Spark depende principalmente do intervalo de tempo para atualização incremental e dos volumes de dados. Mais informações: Preços do Azure Synapse Analytics
Você precisa criar um pool do Spark com a versão 3.4. Se você já estiver usando esse recurso com o Spark versão 3.3, precisará executar uma atualização in-loco para seus perfis existentes. Mais informações: IAtualização in-loco para Apache Spark 3.4 com Delta Lake 2.4

Observação

O status do Azure Synapse Link no Power Apps (make.powerapps.com) reflete o estado de conversão do Delta Lake:

Count mostra o número de registros na tabela do Delta Lake.
Last synchronized on Datetime representa o carimbo de data/hora da última conversão bem-sucedida.
Sync status é mostrado como ativo quando a sincronização de dados e a conversão do Delta Lake são concluídas, indicando que os dados estão prontos para consumo.

Pré-requisitos

Dataverse: você deve ter o direito de acesso administrador do sistema no Dataverse. Além disso, as tabelas que você deseja exportar por meio do Azure Synapse Link devem ter a propriedade Controlar alterações habilitada. Mais Informações: Opções avançadas
Azure Data Lake Storage Gen2: você deve ter uma conta do Azure Data Lake Storage Gen2 e o acesso de funções Proprietário e Colaborador de Dados do Blob de Armazenamento. Sua conta de armazenamento deve habilitar o Namespace hierárquico e o acesso à rede pública para a configuração inicial e a sincronização delta. Permitir acesso à chave da conta de armazenamento é necessário apenas para a configuração inicial.
Workspace do Synapse: você deve ter um workspace do Synapse, a função Proprietário em controle de acesso (IAM) e o acesso da função Administrador do Synapse no Synapse Studio. O workspace do Synapse deve estar na mesma região da sua conta do Azure Data Lake Storage Gen2. A conta de armazenamento deve ser adicionada como um serviço vinculado no Synapse Studio. Para criar um workspace do Synapse, vá para Criar um workspace do Synapse.
Um pool do Apache Spark no Azure Synapse workspace conectado com o Apache Spark Versão 3.4 usando esta configuração recomendada de Pool do Spark. Para obter informações sobre como criar uma solução com o Pool do Spark, acesse Criar um pool do Apache Spark.
O requisito de versão mínima do Microsoft Dynamics 365 para usar esse recurso é 9.2.22082. Mais informações: Aceitar atualizações com acesso antecipado

Configuração de pool do Spark recomendada

Essa configuração pode ser considerada uma etapa de inicialização para casos de uso médios.

Tamanho do nó: pequeno (4 vCores / 32 GB)
Escala automática: habilitada
Número de nós: 3 a 10 (ou 20, se necessário. ¹Mais informações abaixo.)
Pausa automática: habilitada
Número de minutos em tempo ocioso: 5
Apache Spark: 3.4
Alocar executores dinamicamente: habilitado
Número padrão de executores: 1 a 9

Importante

Use o pool do Spark exclusivamente para operação de conversão do Delta Lake com o Link do Synapse do Dataverse. Para obter confiabilidade e desempenho ideais, evite executar outros trabalhos do Spark usando o mesmo pool do Spark.
Talvez seja necessário aumentar o número de nós do pool do Spark se você espera que um grande número de linhas seja processado. Se o tamanho do pool do Spark for insuficiente, os trabalhos de conversão Delta poderão falhar
O mesmo pool do Spark é usado pelo sistema para executar um trabalho noturno que compacta arquivos Delta no lake entre 23h e 6h no horário local. O sistema determina o horário noturno para executar esse trabalho com base no local do seu ambiente do Dataverse. Não é possível fornecer uma janela de tempo específica. Essa opção reduz o tamanho dos arquivos Delta mesclando arquivos conhecidos como "compactação". Em casos raros, esse trabalho pode interferir no trabalho de conversão incremental. Você pode aumentar o número de nós para 20 caso perceba essas falhas.
Você só será cobrado pelos nós do Pool do Spark realmente utilizados. Aumentar o número de nós pode não resultar em cobranças mais altas.

Conecte o Dataverse à área de trabalho do Synapse e exporte dados em formato Delta Lake

Entre no Power Apps e selecione o ambiente desejado.
No painel de navegação esquerdo, selecione Link do Azure Synapse. Se o item não estiver no painel lateral, selecione …Mais e selecione o item desejado.
Na barra de comandos, selecione + Novo link
Selecione Conectar-se ao seu espaço de trabalho do Azure Synapse Analytics e selecione Assinatura, Grupo de recursos e Nome do espaço de trabalho.
Selecione Usar Pool do Spark para o processamento e, em seguida, selecione o Pool do Spark pré-criados e a Conta de armazenamento.
Selecione Avançar.
Adicione as tabelas que deseja exportar e selecione Avançado.
De outro modo, selecione Mostrar configurações avançadas e insira o intervalo de tempo em minutos para a frequência com que as atualizações incrementais devem ser capturadas.
Selecione Salvar.

Monitore seu link do Azure Synapse e a conversão de dados

Selecione o link do Azure Synapse desejado e, em seguida, selecione Ir para a área de trabalho do Azure Synapse Analytics na barra de comandos.
Selecione Monitorar>Aplicativos do Apache Spark. Mais informações: Usar o Synapse Studio para monitorar seus aplicativos do Apache Spark

Visualize seus dados da área de trabalho do Synapse

Selecione o link do Azure Synapse desejado e, em seguida, selecione Ir para a área de trabalho do Azure Synapse Analytics na barra de comandos.
Expanda os Bancos de Dados do Lake no painel esquerdo, selecione dataverse-environmentNameorganizationUniqueName e expanda Tabelas. Todas as tabelas do Parquet são listadas e ficam disponíveis para análise na convenção de nomenclatura DataverseTableName.(Non_partitioned Table).

Observação

Não use tabelas com a convenção e nomenclatura _partitioned. Quando você escolhe o formato Delta parquet, as tabelas com a convenção de nomenclatura _partition são usadas como tabelas de preparo e removidas depois de usadas pelo sistema.

Visualize seus dados do Azure Data Lake Storage Gen2

Selecione o Azure Synapse Link desejado e, em seguida, selecione Ir para o Azure Data Lake na barra de comandos.
Selecione os Contêineres em Armazenamento de Dados.
Selecione *dataverse- *environmentName-organizationUniqueName. Todos os arquivos do Parquet são armazenados na pasta deltalake.

Atualização in-loco para Apache Spark 3.4 com Delta Lake 2.4

De acordo com o runtime do Synapse para política do ciclo de vida do Apache Spark, o runtime do Azure Synapse para Apache Spark 3.3 foi desativado e desabilitado em de 31 de março de 2025. Após a data de término do suporte, os tempos de execução desativados não estarão disponíveis para novos pools do Spark e os fluxos de trabalho existentes com pools do Spark 3.3 não serão executados, enquanto os metadados permanecerão temporariamente no espaço de trabalho do Synapse. Mais informações: Runtime do Azure Synapse para Apache Spark 3.3 (EOSA).

Para garantir que seus perfis Link do Synapse existentes continuem a processar dados, você precisa atualizar os perfis Link do Synapse para usar pools do Spark 3.4 usando o "processo de atualização in loco".

Pré-requisitos de atualização in-loco

Você deve ter um Azure Synapse Link existente para o perfil do Delta Lake do Dataverse em execução com um Synapse Spark versão 3.3.
Você deve criar um novo pool do Spark Synapse com o Spark versão 3.4, usando a mesma configuração de hardware dos nós ou superior dentro do mesmo espaço de trabalho do Synapse. Para obter informações sobre como criar uma solução com o Pool do Spark, acesse Criar um pool do Apache Spark. Esse pool do Spark deve ser criado independentemente do pool 3.3 atual - não exclua o pool do Spark 3.3 nem crie um pool do Spark 3.4 com o mesmo nome

Atualização in-loco para o Spark 3.4

Entre no Power Apps e selecione o ambiente preferido.
No painel de navegação esquerdo, selecione Link do Azure Synapse. Se o item não estiver no painel de navegação esquerdo, selecione …More e selecione o item desejado.
Abra o perfil Azure Synapse Link e, em seguida, selecione Atualizar para o Apache Spark 3.4 com Delta Lake 2.4.
Selecione o pool do Spark disponível na lista e Atualizar.

Observação

A atualização do pool do Spark só ocorre quando um novo trabalho do Spark de conversão do Delta Lake é disparado. Verifique se você tem pelo menos uma alteração de dados após a seleção de Atualizar.
Você pode excluir o pool mais antigo do Spark 3.3 depois de verificar se os trabalhos de conversão Delta usam o novo pool.

O que é Azure Synapse Link para Dataverse?

Compartilhar via

Exportar dados do Dataverse no formato Delta Lake

O que é um Delta Lake?

Por que usar um Delta Lake?

Como o Delta Lake funciona com o Azure Synapse Link para Dataverse?

Pré-requisitos

Configuração de pool do Spark recomendada

Conecte o Dataverse à área de trabalho do Synapse e exporte dados em formato Delta Lake

Monitore seu link do Azure Synapse e a conversão de dados

Visualize seus dados da área de trabalho do Synapse

Visualize seus dados do Azure Data Lake Storage Gen2

Atualização in-loco para Apache Spark 3.4 com Delta Lake 2.4

Pré-requisitos de atualização in-loco

Atualização in-loco para o Spark 3.4

Artigos relacionados

Comentários

Recursos adicionais