Captura de datos modificados con evolución de esquemas desde Azure SQL Database a un sumidero Delta mediante el uso de un recurso de captura de datos modificados
SE APLICA A: Azure Data Factory Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.
En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de una fuente Azure SQL Database y los agrega a Delta Lake almacenados en Azure Data Lake Storage Gen2, en tiempo real. Esta actividad muestra el apoyo a la evolución de esquemas mediante el uso de un recurso CDC entre la fuente y el receptor.
En este artículo aprenderá a:
- Cree un recurso de CDC.
- Realizar cambios dinámicos de esquema en una tabla de origen.
- Validar los cambios de esquema en el sumidero Delta de destino.
Puede modificar y ampliar el patrón de configuración en este artículo.
Requisitos previos
Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:
- Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
- Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
- Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.
Creación de un artefacto de CDC
Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).
Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).
Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.
Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.
Use la lista desplegable para elegir el origen de datos. En este artículo, seleccione Azure SQL Database.
Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.
Luego de seleccionar un servicio vinculado, se le pedirá que seleccione las tablas de origen. Utilice las casillas de verificación para seleccionar las tablas de origen, y luego, seleccione el valor de la columna incremental utilizando la lista desplegable.
El panel solo muestra las tablas que admiten tipos de datos de columnas incrementales.
Nota:
Para habilitar CDC con evolución de esquemas en un origen de Azure SQL Database, elija tablas basadas en columnas de filigrana en lugar de tablas habilitadas para CDC nativo de SQL.
Una vez seleccionadas las tablas de origen, seleccione Continuar para establecer el destino de los datos.
Seleccione un valor de Tipo de destino mediante la lista desplegable. Para este artículo, seleccione Delta.
Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.
Seleccione la carpeta de datos de destino. Puede usar:
- El botón Examinar en Ruta base de destino, que le ayuda a rellenar automáticamente la ruta de exploración para todas las nuevas tablas seleccionadas para una fuente.
- El botón Examinar afuera para seleccionar individualmente la ruta de la carpeta.
Luego de seleccionar una ruta de carpeta, seleccione el botón Continuar.
Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.
Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.
Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.
Nota:
La evolución del esquema solo funciona cuando el botón de alternancia Asignación automática está activado. Para saber cómo editar las asignaciones de columnas o incluir transformaciones, consulte Capturar datos modificados con un recurso de captura de datos de modificación.
Seleccione el enlace Claves, y luego, seleccione la columna Claves que se utilizará para el seguimiento de las operaciones de eliminación.
Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.
Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.
De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.
Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.
Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.
Nota:
Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.
Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.
Ahora que la captura de datos de cambios está en marcha, puede:
Utilice la página de supervisión para ver cuántos cambios (inserción, actualización o eliminación) se han leído y escrito, junto con otra información de diagnóstico.
Validar que los datos de cambio llegaron a Delta Lake almacenados en Azure Data Lake Storage Gen2, en formato Delta.
Validar el esquema de los datos de modificación que han llegado.
Realizar cambios dinámicos a nivel de esquema en las tablas de origen
Agregue una nueva columna PersonalEmail a la tabla de origen mediante una sentencia
ALTER TABLE
T-SQL, como se muestra en el siguiente ejemplo.Compruebe que la nueva columna PersonalEmail aparece en la tabla existente.
Validar los cambios de esquema en el sumidero Delta
Confirme que la nueva columna PersonalEmail aparece en el receptor Delta. Ahora ya sabe que los datos de modificación con cambios de esquema llegaron al destino.