Compartir a través de


Captura de datos modificados con evolución de esquemas desde Azure SQL Database a un sumidero Delta mediante el uso de un recurso de captura de datos modificados

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de una fuente Azure SQL Database y los agrega a Delta Lake almacenados en Azure Data Lake Storage Gen2, en tiempo real. Esta actividad muestra el apoyo a la evolución de esquemas mediante el uso de un recurso CDC entre la fuente y el receptor.

En este artículo aprenderá a:

  • Cree un recurso de CDC.
  • Realizar cambios dinámicos de esquema en una tabla de origen.
  • Validar los cambios de esquema en el sumidero Delta de destino.

Puede modificar y ampliar el patrón de configuración en este artículo.

Requisitos previos

Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:

  • Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
  • Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
  • Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.

Creación de un artefacto de CDC

  1. Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.

    Screenshot of a list of change data capture actions.

  4. Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.

    Screenshot of the text box to update the name of a resource.

  5. Use la lista desplegable para elegir el origen de datos. En este artículo, seleccione Azure SQL Database.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Screenshot of the box to choose or create a linked service.

  7. Luego de seleccionar un servicio vinculado, se le pedirá que seleccione las tablas de origen. Utilice las casillas de verificación para seleccionar las tablas de origen, y luego, seleccione el valor de la columna incremental utilizando la lista desplegable.

    Screenshot that shows selection of a source table and an incremental column.

    El panel solo muestra las tablas que admiten tipos de datos de columnas incrementales.

    Nota:

    Para habilitar CDC con evolución de esquemas en un origen de Azure SQL Database, elija tablas basadas en columnas de filigrana en lugar de tablas habilitadas para CDC nativo de SQL.

  8. Una vez seleccionadas las tablas de origen, seleccione Continuar para establecer el destino de los datos.

    Screenshot of the Continue button in the guided process to select a data target.

  9. Seleccione un valor de Tipo de destino mediante la lista desplegable. Para este artículo, seleccione Delta.

    Screenshot of a dropdown menu of all data target types.

  10. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Screenshot of the box to choose or create a linked service to your data target.

  11. Seleccione la carpeta de datos de destino. Puede usar:

    • El botón Examinar en Ruta base de destino, que le ayuda a rellenar automáticamente la ruta de exploración para todas las nuevas tablas seleccionadas para una fuente.
    • El botón Examinar afuera para seleccionar individualmente la ruta de la carpeta.

    Screenshot of a folder icon to browse for a folder path.

  12. Luego de seleccionar una ruta de carpeta, seleccione el botón Continuar.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  13. Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.

    Screenshot of the change data capture studio.

    Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.

    Screenshot of the source-to-target mapping in the change data capture studio.

  14. Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.

    Screenshot of the toggle for automatic mapping turned on.

    Nota:

    La evolución del esquema solo funciona cuando el botón de alternancia Asignación automática está activado. Para saber cómo editar las asignaciones de columnas o incluir transformaciones, consulte Capturar datos modificados con un recurso de captura de datos de modificación.

  15. Seleccione el enlace Claves, y luego, seleccione la columna Claves que se utilizará para el seguimiento de las operaciones de eliminación.

    Screenshot of the link to enable Keys column selection.

    Screenshot of selecting a Keys column for the selected source.

  16. Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.

    Screenshot of the Set Latency button at the top of the canvas.

  17. Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.

    De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.

    Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.

    Screenshot of the options for setting latency.

  18. Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.

    Screenshot of the publish button at the top of the canvas.

    Nota:

    Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.

  19. Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.

    Screenshot of the Start button at the top of the canvas.

Ahora que la captura de datos de cambios está en marcha, puede:

  • Utilice la página de supervisión para ver cuántos cambios (inserción, actualización o eliminación) se han leído y escrito, junto con otra información de diagnóstico.

    Screenshot of the monitoring page of a selected change data capture.

    Screenshot of the monitoring page of a selected change data capture with a detailed view.

  • Validar que los datos de cambio llegaron a Delta Lake almacenados en Azure Data Lake Storage Gen2, en formato Delta.

    Screenshot of a target Delta folder.

  • Validar el esquema de los datos de modificación que han llegado.

    Screenshot of a Delta file.

Realizar cambios dinámicos a nivel de esquema en las tablas de origen

  1. Agregue una nueva columna PersonalEmail a la tabla de origen mediante una sentencia ALTER TABLE T-SQL, como se muestra en el siguiente ejemplo.

    Screenshot of the ALTER command in Azure Data Studio.

  2. Compruebe que la nueva columna PersonalEmail aparece en la tabla existente.

    Screenshot of a new table design with a column added for personal email.

Validar los cambios de esquema en el sumidero Delta

Confirme que la nueva columna PersonalEmail aparece en el receptor Delta. Ahora ya sabe que los datos de modificación con cambios de esquema llegaron al destino.

Screenshot of a Delta file with a schema change.