Compartir por


Opcións de configuración avanzada en Azure Synapse Link

Azure Synapse Link ofrece múltiples xeitos de escribir e ler os seus datos para axustalos a varios escenarios analíticos.

Nota

Azure Synapse Link for Dataverse antigamente coñecíase como Exportar a lago de datos. O servizo cambiou de nome en maio de 2021 e continuará exportando datos tamén a Azure Data Lake e Azure Synapse Analytics.

Este artigo trata de:

  1. Actualizacións no lugar fronte a escrituras de só anexo.
  2. Partición de datos especificada polo usuario.

Actualizacións no lugar fronte a escrituras de só anexo

Mentres escribe datos da táboa de Dataverse en Azure Data Lake, baseado no valor de createdOn, que é a data e hora en que se creou o rexistro, hai dúas opcións diferentes para escoller. Estas son, Actualización no lugar e Anexar só.

A configuración predeterminada (para táboas onde createdOn está dispoñible) consiste en facer unha actualización ou upsert (actualización ou inserción) dos datos incrementais no destino. Se o cambio é novo e non existe unha fila correspondente no lago, no caso dunha creación, os ficheiros de destino escanéanse e os cambios insírense na partición de ficheiro correspondente no lago. Se o cambio é unha actualización e existe unha fila no lago, o ficheiro correspondente do lago actualízase, no canto de inserilo, cos datos incrementais. Noutras palabras, a configuración predeterminada para todos os cambios CUD (crear, actualizar, eliminar) en Dataverse táboas, onde createdOn está dispoñible, é facer unha actualización no lugar de destino, en Azure Data Lake.

Pode cambiar o comportamento predeterminado dunha actualización no lugar empregando unha configuración opcional chamada Anexar só. Máis que unha Actualización no lugar, no modo Anexar só, anéxanse datos incrementais de táboas de Dataverse á partición de ficheiros correspondente no lago. Esta é unha configuración por táboa e está dispoñible como caixa de verificación en Avanzado > Amosar configuración avanzada. Para táboas de Dataverse con Anexar só activado, todos os cambios de CUD engádense de xeito incremental aos ficheiros de destino correspondentes no lago. Cando elixa esta opción, a estratexia de partición establecerase de xeito predeterminado en Ano e cando os datos se escriben no lago de datos, divídense por cada ano. Anexar só tamén é a configuración predeterminada para táboas de Dataverse que non teñen o valor createdOn.

A táboa seguinte describe como se manexan as filas no lago contra os eventos CUD para cada unha das opcións de escritura de datos.

Evento Actualización en curso Só anexar
Crear A fila insírese no ficheiro de partición e baséase no valor createdOn da fila. A fila engádese ao final do ficheiro de partición e baséase no valor createdOn do rexistro.
Update Se a fila existe no ficheiro de partición, entón substituirase ou actualizarase con datos actualizados. Se non existe, insírese no ficheiro. A fila, xunto coa versión actualizada, engádese ao final do ficheiro de partición.
Delete Se a fila existe no ficheiro de partición, eliminarase do ficheiro. A fila engádese ao final do ficheiro de partición con IsDelete column = True.

Nota

Para táboas de Dataverse onde Anexar só está activado, a eliminación dunha fila da orixe non eliminará nin eliminará a fila no lago. Pola contra, a fila eliminada engádese como unha nova fila no lago e a isDeleted columna defínese como Verdadero.

A lectura sucia (ALLOW_INCONSISTENT_READS) para sen servidor está habilitada para o modo de só engadir. ALLOW_INCONSISTENT_READS significa que o usuario pode ler os ficheiros que se poden modificar constantemente mentres se executa a SELECT consulta. Os resultados serán consistentes e equivalentes á lectura dunha instantánea do ficheiro. (Non é equivalente ao illamento de instantáneas da base de datos debido ao diferente tempo de xeración de instantáneas).

Non todos os cambios de CUD se capturarán en só anexar: Synapse Link procesa os cambios nos datos en grupos ou "lotes" antes de publicalos no data lake. Como resultado, se o usuario realiza cambios nun intervalo de tempo curto, non todos os cambios CUD se capturarán no lago de datos.

Aquí ten algúns detalles adicionais sobre cando usar calquera das opcións.

  • Actualización no lugar: esta opción é a configuración predeterminada e recoméndase só se desexa conectarse directamente aos datos do lago e precisa o estado actual (non o historial nin os cambios incrementais). O ficheiro contén o conxunto de datos completo e pódese utilizar a través de Power BI ou copiando todo o conxunto de datos para canalizacións ETL (Extract, Transfer, Load).
  • Anexar só: seleccione esta opción se non se conecta directamente aos datos do lago e quere copiar datos de forma incremental a outro destino mediante canalizacións ETL. Esta opción proporciona un historial de cambios para permitir escenarios de IA e ML.

Pode alternar a opción Mostrar axustes de configuración avanzada en Avanzado en Azure Synapse Link for Dataverse para personalizar a estratexia de partición de datos e seleccionar opcións para escribir no lago de datos de Azure.

Mostrar configuración avanzada.

Partición de datos

Cando escribe datos de táboas de Dataverse a Azure Data Lake Storage usando Azure Synapse Link, as táboas divídense (no canto dun único ficheiro) no lago en función do valor createdOn en cada fila da orixe. A estratexia de partición predeterminada é por mes e os datos están particionados en Azure Data Lake cada mes.

En función do volume da táboa de Dataverse e a distribución de datos, pode escoller dividir os seus datos por ano. Con esta opción, cando se escriban os datos da táboa de Dataverse en Azure Data Lake, dividiranse anualmente en función do valor createdOn de cada fila da orixe. Para as táboas sen a createdOn columna, as filas de datos divídense nun ficheiro novo cada rexistro 5,000,000. Esta é unha configuración por táboa e está dispoñible como caixa de verificación en Avanzado > Amosar configuración avanzada.

Detalles adicionais con exemplos de como se manexan os datos no lago cunha estratexia de partición anual ou mensual:

Estratexia de partición.

Consulte tamén

Azure Synapse Link for Dataverse

Nota

Pode indicarnos as súas preferencias para o idioma da documentación? Realice unha enquisa breve. (teña en conta que esa enquisa está en inglés)

Esta enquisa durará sete minutos aproximadamente. Non se recompilarán datos persoais (declaración de privacidade).