Opciones de configuración avanzada en Azure Synapse Link

Artículo
04/09/2023

Azure Synapse Link ofrece múltiples formas de escribir y leer sus datos para adaptarse a varios escenarios analíticos.

Nota

Azure Synapse Link for Dataverse anteriormente se llamaba Exportar a lago de datos. El servicio cambió de nombre a partir de mayo de 2021 y continuará exportando datos a Azure Data Lake, así como Azure Synapse Analytics.

Este artículo cubre:

Actualizaciones in situ frente a escrituras solo para anexar.
Partición de datos especificada por el usuario.

Actualizaciones in situ frente a escrituras solo para anexar

Al escribir datos de tabla de Dataverse en Azure Data Lake, según el valor de createdOn, que indica la fecha y hora de creación del registro, hay dos opciones de configuración diferentes para elegir. Son Actualización en contexto y Solo anexar.

La configuración predeterminada (para las tablas donde createdOn está disponible) es realizar una actualización in situ o una integración (actualización o inserción) de los datos incrementales en el destino. Si el cambio es nuevo y no existe una fila correspondiente en el lago, en el caso de una creación, los archivos de destino se escanean y los cambios se insertan en la partición de archivo correspondiente en el lago. Si el cambio es una actualización y existe una fila en el lago, el archivo correspondiente en el lago se actualiza, en lugar de insertarse, con los datos incrementales. En otras palabras, la configuración predeterminada para todos los cambios de CUD (crear, actualizar, eliminar) en tablas de Dataverse, donde createdOn está disponible, es realizar una actualización en contexto en el destino, en Azure Data Lake.

Puede cambiar el comportamiento predeterminado de una actualización en contexto utilizando una configuración opcional llamada Solo anexar. En lugar de una Actualización en contexto, en modo Solo anexar se anexan datos incrementales de las tablas de Dataverse a la partición de archivos correspondiente en el lago. Esta es una configuración por tabla y está disponible como una casilla en Avanzado > Mostrar opciones de configuración avanzadas. Para tablas de Dataverse con la opción Solo anexar activada, todos los cambios de CUD se agregan de forma incremental a los archivos de destino correspondientes en el lago. Cuando elige esta opción, la estrategia de partición predeterminada es Año y cuando los datos se escriben en el lago de datos, se dividen por año. Solo anexar es también la configuración predeterminada para tablas de Dataverse que no tienen valor createdOn valor.

La tabla siguiente describe cómo se procesan las filas del lago ante eventos CUD para cada una de las opciones de escritura de datos.

Evento	Actualización en contexto	Solo anexar
Crear	La fila se inserta en el archivo de partición y se basa en el valor `createdOn` de la fila.	La fila se agrega al final del archivo de partición y se basa en el valor `createdOn` del registro.
Actualizar	Si la fila existe en el archivo de partición, se reemplaza o actualiza con datos actualizados. Si no existe, se inserta en el archivo.	La fila, junto con la versión actualizada, se agrega al final del archivo de partición.
Delete	Si la fila existe en el archivo de partición, se elimina del archivo.	La fila se agrega al final del archivo de partición con `IsDelete column = True`.

Nota

Para tablas de Dataverse donde la opción Solo anexar está habilitada, eliminar una fila del origen no eliminará ni quitará la fila del lago. En su lugar, la fila eliminada se agrega como una nueva fila en el lago y la columna isDeleted se establece en Verdadero.

La lectura sucia (ALLOW_INCONSISTENT_READS) para sin servidor está habilitada para el modo de solo anexar. ALLOW_INCONSISTENT_READS significa que el usuario puede leer los archivos que se pueden modificar constantemente mientras se ejecuta la consulta SELECT. Los resultados serán consistentes y equivalentes a leer una instantánea del archivo. (No es equivalente al aislamiento de la instantánea de la base de datos debido al diferente tiempo de generación de la instantánea).

No todos los cambios de CUD se capturarán en anexar solo: Synapse Link procesa los cambios en los datos en grupos o "lotes" antes de publicarlos en el lago de datos. Como resultado, si el usuario realiza cambios en un breve intervalo de tiempo, no todos los cambios de CUD se capturarán en el lago de datos.

Aquí hay algunos detalles más sobre cuándo usar cualquiera de las opciones.

Actualización in situ: esta opción es la configuración predeterminada y se recomienda solo si desea conectarse directamente a los datos en el lago y necesita el estado actual (no el historial ni los cambios incrementales). El archivo contiene el conjunto de datos completo y se puede utilizar a través de Power BI o copiando el conjunto de datos completo para canalizaciones ETL (Extraer, Transferir, Cargar).
Solo anexar: seleccione esta opción si no se conecta directamente a los datos en el lago y desea copiar de forma incremental los datos a otro objetivo mediante canalizaciones ETL. Esta opción proporciona un historial de cambios para habilitar escenarios de IA y ML.

Puede alternar la opción Mostrar opciones de configuración avanzada debajo de Avanzado en Azure Synapse Link for Dataverse para personalizar su estrategia de partición de datos y seleccionar opciones para escribir en Azure Data Lake.

Mostrar configuración avanzada.

Creación de particiones de datos

Cuando escribe datos de tabla de Dataverse al almacenamiento del lago de datos de Azure mediante Azure Synapse Link, las tablas se dividen (en lugar de un solo archivo) en el lago en función del valor createdOn en cada fila en el origen. La estrategia de partición predeterminada es por mes y los datos se parten en el lago de datos de Azure mensualmente.

Según el volumen de tabla y la distribución de datos de Dataverse, puede optar por partir sus datos por año. Con esta opción, cuando los datos de la tabla de Dataverse se escriben en el lago de datos de Azure, se partirán anualmente según el valor createdOn de cada fila de la fuente. Para tablas sin la columna createdOn, las filas de datos se dividen en un nuevo archivo cada cinco millones de registros. Esta es una configuración por tabla y está disponible como una casilla en Avanzado > Mostrar opciones de configuración avanzadas.

Más detalles con ejemplos de cómo se manejan los datos en el lago con una estrategia de partición anual o mensual:

Estrategia de partición.

Consulte también

Azure Synapse Link for Dataverse

Nota

¿Puede indicarnos sus preferencias de idioma de documentación? Realice una breve encuesta. (tenga en cuenta que esta encuesta está en inglés)

La encuesta durará unos siete minutos. No se recopilan datos personales (declaración de privacidad).

Compartir a través de

Opciones de configuración avanzada en Azure Synapse Link

Actualizaciones in situ frente a escrituras solo para anexar

Creación de particiones de datos

Consulte también

Comentarios

Recursos adicionales