Transformar dados do Azure Synapse Link for Dataverse com o Apache Spark

Artigo
03/15/2023

Você pode usar o Azure Synapse Link para conectar dados do Microsoft Dataverse ao Azure Synapse Analytics para explorá-los e acelerar o tempo para obter insights. Este artigo mostra como transformar dados do Dataverse usando o mecanismo do Apache Spark disponível no espaço de trabalho do Synapse.

Observação

O Azure Synapse Link for Microsoft Dataverse era conhecido antes como Exportar para o data lake. O serviço foi renomeado em maio de 2021 e continuará a exportar dados para o Azure Data Lake, bem como para o Azure Synapse Analytics.

Pré-requisitos

Esta seção descreve os pré-requisitos necessários para transformar dados do Dataverse com o Apache Spark após usar o serviço Azure Synapse Link for Dataverse.

Azure Synapse Link for Dataverse. Este guia pressupõe que você já tenha exportado dados do Dataverse usando o Azure Synapse Link for Dataverse.
Acesso de Conta de Armazenamento. Uma das seguintes funções para a conta de armazenamento deve ser concedida: Leitor de Dados do Storage Blob, Colaborador de Dados do Storage Blob ou Proprietário de Dados do Storage Blob.
Administrador do Synapse. Você deve receber o direito de acesso Administrador do Synapse no Synapse Studio.

Transformar seus dados com um notebook do Apache Spark

No Power Apps, selecione seu Azure Synapse Link desejado na lista e, em seguida, selecione Acessar o Azure Synapse workspace.
Expanda Bancos de Dados, selecione seu contêiner do Dataverse. Suas tabelas exportadas são exibidas no diretório Tabelas na barra lateral esquerda.
Clique com o botão direito na tabela desejada e selecione Novo notebook > Carregar no DataFrame.
Anexe o notebook a um pool do Apache Spark selecionando um pool no menu suspenso. Se você não tiver um pool do Apache Spark, selecione Gerenciar pools para criar um.
Adicione células de código para transformar seus dados. Execute células individuais selecionando o botão de reprodução à esquerda de cada célula ou execute todas as células em sucessão selecionando Executar tudo na barra superior.