Transformar datos de Azure Synapse Link for Dataverse con Apache Spark

Artículo
02/01/2024

Puede utilizar Azure Synapse Link para conectar sus datos de Microsoft Dataverse a Azure Synapse Analytics para explorar sus datos y acelerar el tiempo de conclusión. Este artículo le muestra cómo transformar sus datos de Dataverse utilizando el motor Apache Spark disponible en su espacio de trabajo de Synapse.

Nota

Azure Synapse Link for Microsoft Dataverse anteriormente se llamaba Exportar a data lake. El servicio cambió de nombre a partir de mayo de 2021 y continuará exportando datos a Azure Data Lake, así como Azure Synapse Analytics.

Requisitos previos

Esta sección describe los requisitos previos necesarios para transformar datos de Dataverse con Apache Spark después de usar el servicio Azure Synapse Link for Dataverse.

Azure Synapse Link for Dataverse. Esta guía asume que ya ha exportado datos desde Dataverse usando Azure Synapse Link for Dataverse.
Acceso a cuenta de almacenamiento. Debe tener uno de los siguientes roles para la cuenta de almacenamiento: lector de datos de Storage Blob, colaborador de datos de Storage Blob o propietario de datos de Storage Blob.
Administrador de Synapse. Se le debe conceder el acceso del rol Synapse Administrador dentro de Synapse Studio.

Transforme sus datos con un Apache Spark notebook

En Power Apps, seleccione el Azure Synapse Link que desee de la lista y luego seleccione Ir a Azure Synapse workspace.
Expanda Bases de datos, seleccione su contenedor de Dataverse. Sus tablas exportadas se muestran en el directorio Tablas en la barra lateral izquierda.
Haga clic con el botón derecho en la tabla deseada y seleccione Nuevo cuaderno > Cargar en DataFrame.
Adjunte el cuaderno a un grupo de Apache Spark seleccionando un grupo en el menú desplegable. Si no tiene un grupo de Apache Spark, seleccione Administrar grupos para crear uno.
Agregue celdas de código para transformar sus datos. Ejecute celdas individuales seleccionando el botón de reproducción a la izquierda de cada celda o ejecute todas las celdas en sucesión seleccionando Ejecutar todo desde la barra superior.