Ingerir datos de Dataverse exportados con Azure Data Factory

Artículo
03/16/2023

Después de exportar datos de Microsoft Dataverse a Azure Data Lake Storage Gen2 con Azure Synapse Link for Dataverse, puede usar Azure Data Factory para crear flujos de datos, transformar sus datos y ejecutar análisis.

Nota

Azure Synapse Link for Dataverse anteriormente se llamaba Exportar a lago de datos. El servicio cambió de nombre a partir de mayo de 2021 y continuará exportando datos a Azure Data Lake, así como Azure Synapse Analytics.

Este artículo muestra cómo realizar las siguientes tareas:

Configure la cuenta de almacenamiento de Data Lake Storage Gen2 con los datos de Dataverse como fuente en un flujo de datos de Data Factory.
Transforma los datos de Dataverse en Data Factory con un flujo de datos.
Configure la cuenta de almacenamiento de Data Lake Storage Gen2 con los datos de Dataverse como receptor en un flujo de datos de Data Factory.
Ejecute su flujo de datos creando una canalización.

Requisitos previos

En esta sección se describen los requisitos previos necesarios para ingestar datos de Dataverse exportados con Data Factory.

Roles de Azure. La cuenta de usuario que se usa para iniciar sesión en Azure debe ser miembro del rol colaborador o propietario, o un Administrador de la suscripción de Azure. Para ver los permisos que tiene en la suscripción, vaya al Portal de Azure, seleccione su nombre de usuario en la esquina superior derecha, seleccione ... y luego seleccione Mis permisos. Si tiene acceso a varias suscripciones, seleccione la adecuada. Para crear y administrar recursos secundarios para Data Factory en Azure Portal—incluidos conjuntos de datos, servicios vinculados, canalizaciones, activadores y tiempos de ejecución de integración—debe pertenecer al rol Colaborador de Data Factory a nivel de grupo de recursos o superior.
Azure Synapse Link for Dataverse. Esta guía asume que ya ha exportado datos de Dataverse usando Azure Synapse Link for Dataverse. En este ejemplo, los datos de la tabla de cuentas se exportan al lago de datos.
Azure Data Factory. Esta guía asume que ya ha creado una factoría de datos con la misma suscripción y grupo de recursos que la cuenta de almacenamiento que contiene los datos de Dataverse exportados.

Establecer la cuenta de almacenamiento de Data Lake Storage Gen2 como fuente

Abra Azure Data Factory y seleccione la factoría de datos que se encuentra en la misma suscripción y grupo de recursos que la cuenta de almacenamiento que contiene sus datos de Dataverse exportados. Luego seleccione Crear flujo de datos desde la página de inicio.
Active el modo Depuración del flujo de datos y seleccione periodo de vida preferido. Esto puede tardar hasta 10 minutos, pero puede continuar con los siguientes pasos.
Seleccione Agregar origen.
En Configuración de origen, puede realizar las siguientes acciones:
- Nombre del flujo de salida: introduzca el nombre que desee.
- Tipo de origen: seleccione Insertado.
- Tipo conjunto de datos en línea: seleccione Common Data Model.
- Servicio vinculado: seleccione la cuenta de almacenamiento en el menú desplegable y luego vincule un nuevo servicio proporcionando los detalles de su suscripción y dejando todas las configuraciones predeterminadas.
- Muestreo: si desea utilizar todos sus datos, seleccione Inhabilitar.
En Opciones de configuración, realice las siguientes acciones:
- Formato de metadatos: Seleccione Model.json.
- Ubicación de la raíz: Introduzca el nombre del contenedor en el primer cuadro (Contenedor) o seleccione Examinar para busar el nombre del contenedor y seleccione Aceptar.
- Entidad: Introduzca el nombre de la tabla o seleccione Examinar para buscar la tabla.
Compruebe la pestaña Proyección para asegurarse de que su esquema se haya importado correctamente. Si no ve ninguna columna, seleccione Opciones de esquema y revise la opción Inferior tipos de columna desviados. Configure las opciones de formato para que coincidan con su conjunto de datos y luego seleccione Aplicar.
Puede ver sus datos en la pestaña Vista previa de datos para asegurarse de que la creación del origen es completa y precisa.

Transformar los datos de Dataverse

Después de configurar los datos exportados de Dataverse en la cuenta de Azure Data Lake Storage Gen2 como fuente en el flujo de datos de Data Factory, existen muchas posibilidades para transformar sus datos. Más información: Azure Data Factory

Siga estas instrucciones para crear una clasificación para cada fila por el campo ingresos de la tabla de cuentas.

Seleccione + en la esquina inferior derecha de la transformación anterior, y luego busque y seleccione Clasificación.
En la pestaña Configuración de clasificación, especifique la siguiente información:
- Nombre del flujo de salida: Introduzca el nombre que desee, como Clasificación1.
- Secuencia entrante: seleccione el nombre de la fuente que desee. En este caso, el nombre de la fuente del paso anterior.
- Opciones: Deje las opciones sin marcar.
- Columna de clasificación: Ingrese el nombre de la columna de clasificación generada.
- Condiciones de ordenación: selecciona la columna ingresos y ordene en orden Descendente.
Puede ver sus datos en la pestaña vista previa de datos donde encontrará la nueva columna revenueRank en la posición más a la derecha.

Establezca la cuenta de almacenamiento de Data Lake Storage Gen2 como receptor

En última instancia, debe establecer un receptor para su flujo de datos. Siga estas instrucciones para colocar sus datos transformados como un archivo de texto delimitado en el lago de datos.

Seleccione + en la esquina inferior derecha de la transformación anterior, y luego busque y seleccione Receptor.
En la ficha Receptor, realice una de estas acciones:
- Nombre del flujo de salida: introduzca el nombre que desee, como Receptor1.
- Corriente entrante: seleccione el nombre de la fuente que desee. En este caso, el nombre de la fuente del paso anterior.
- Tipo de receptor: seleccione Texto delimitado.
- Servicio vinculado: seleccione el contenedor de almacenamiento de Data Lake Storage Gen2 que tiene los datos que exportó mediante el servicio de Azure Synapse Link for Dataverse.
En la pestaña Configuración, puede realizar las siguientes acciones:
- Ruta de carpeta: Introduzca el nombre del contenedor en el primer cuadro (Sistema de archivo) o seleccione Examinar para busar el nombre del contenedor y seleccione Aceptar.
- Opción de nombre de archivo: Seleccione salida a un solo archivo.
- Salida a un solo archivo: Introduzca un nombre de archivo, como ADFOutput
- Deje todas las demás configuraciones predeterminadas.
En la pestaña Optimizar, establezca la Opción de partición como Partición única.
Puede ver sus datos en la pestaña Vista previa de datos.

Ejecutar el flujo de datos

En el panel izquierdo, en Recursos de Factory, seleccione + y luego Canalización.
Debajo de Actividades, seleccione Mover y transformar y luego arrastre Flujo de datos al espacio de trabajo.
Seleccione Usar el flujo de datos existente y luego seleccione el flujo de datos que creó en los pasos anteriores.
Seleccione Depurar en la barra de comandos.
Deje que el flujo de datos se ejecute hasta que la vista inferior muestre que se ha completado. Este proceso puede tardar unos minutos.
Vaya al contenedor de almacenamiento de destino final y busque el archivo de datos de la tabla transformada.

Consultar también

Configurar Azure Synapse Link for Dataverse con Azure Data Lake

Analizar datos de Dataverse en Azure Data Lake Storage Gen2 con Power BI

Nota

¿Puede indicarnos sus preferencias de idioma de documentación? Realice una breve encuesta. (tenga en cuenta que esta encuesta está en inglés)

La encuesta durará unos siete minutos. No se recopilan datos personales (declaración de privacidad).

Compartir a través de