Captura de datos modificados de Azure Data Lake Storage Gen2 a Azure SQL Database mediante un recurso de captura de datos modificados

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de un origen de Azure Data Lake Storage Gen2 y los agrega a Azure SQL Database en tiempo real.

En este artículo aprenderá a:

  • Cree un recurso de CDC.
  • Supervise la actividad de CDC.

Puede modificar y expandir el patrón de configuración de este artículo.

Requisitos previos

Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:

  • Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
  • Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
  • Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.

Creación de un artefacto de CDC

  1. Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.

    Screenshot of a list of change data capture actions.

  4. Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.

    Screenshot of the text box to update the name of a resource.

  5. Use la lista desplegable para elegir el origen de datos. Para este artículo, seleccione DelimitedText.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Screenshot of the box to choose or create a linked service.

  7. Use el área Configuración de origen para establecer de manera opcional configuraciones avanzadas de origen, incluidos los delimitadores de columna y fila.

    Screenshot of advanced source settings to set delimiters.

    Si no edita manualmente esta configuración de origen, se establece en los valores predeterminados.

  8. Use el botón Examinar para seleccionar la carpeta de los datos de origen.

    Screenshot of a folder icon to browse for a folder path.

  9. Una vez que haya seleccionado una ruta de acceso de carpeta, seleccione Continuar para establecer el destino de los datos.

    Screenshot of the Continue button in the guided process to select data targets.

    Puede optar por agregar varias carpetas de origen con el botón más (+). Los demás orígenes también deben usar el mismo servicio vinculado que ya ha seleccionado.

  10. Seleccione un valor de Tipo de destino mediante la lista desplegable. En este artículo, seleccione Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Para las Tablas de destino, puede crear una nueva tabla de destino o seleccionar una existente:

    • Para crear una tabla de destino, seleccione la pestaña Nuevas entidades y, a continuación, seleccione Editar nuevas tablas.

      Screenshot of the tab to create new tables for your target.

    • Para seleccionar una tabla existente, seleccione la pestaña Entidades existentes y, a continuación, use la casilla para elegir una tabla. Use el botón Vista previa para ver los datos de la tabla.

      Screenshot of the tab to choose tables for your target.

    Si las tablas existentes en el destino tienen nombres coincidentes, se seleccionan de manera predeterminada en Entidades existentes. Si no es así, se crean nuevas tablas con nombres coincidentes en Nuevas entidades. Además, puede editar nuevas tablas con el botón Editar nuevas tablas.

  13. Puede usar las casillas para elegir varias tablas de destino de la base de datos SQL. Cuando termine de elegir las tablas de destino, seleccione Continuar.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.

    Screenshot of the change data capture studio.

    Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.

    Si desea usar la Asignación automática y no cambiar ninguna asignación de columnas, vaya directamente al paso 18.

    Screenshot of the toggle for automatic mapping turned on.

    Si desea habilitar las asignaciones de columnas, seleccione las asignaciones y desactive el botón de alternancia Asignación automática. A continuación, seleccione el botón Asignaciones de columnas para ver las asignaciones.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Puede volver a la asignación automática en cualquier momento activando el botón de alternancia Asignación automática.

  16. Vea las asignaciones de columnas. Use las listas desplegables para editar las asignaciones de columnas para el Método de asignación, la Columna de origen y la Columna de destino.

    Screenshot of the page for editing column mappings.

    En esta página puede realizar las siguientes acciones:

    • Agregue más asignaciones de columnas mediante el botón Nueva asignación. Use las listas desplegables para hacer elecciones para el Método de asignación, la Columna de origen y la Columna de destino.
    • Seleccione la columna Claves si desea realizar un seguimiento de la operación de eliminación para los tipos de receptor admitidos.
    • Seleccione el botón Actualizar en Vista previa de datos para visualizar cómo se ven los datos en el destino.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Una vez completada la asignación, seleccione el botón de flecha para volver al lienzo principal de CDC.

    Screenshot of the button to go back to the table mapping page.

  18. Puede agregar asignaciones de origen a destino en un artefacto de CDC. Use el botón Editar para añadir más orígenes y destinos de datos. A continuación, seleccione Nueva asignación y use las listas desplegables para establecer un nuevo origen y un nuevo destino. Puede activar o desactivar la Asignación automática para cada una de estas asignaciones de forma independiente.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.

    Screenshot of the Set Latency button at the top of the canvas.

  20. Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.

    De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.

    Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.

    Screenshot of the options for setting latency.

    Nota:

    Si la compatibilidad se extiende al streaming de la integración de datos (orígenes de datos de Azure Event Hubs y Kafka), la latencia se establecerá en Tiempo real de manera predeterminada.

  21. Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.

    Screenshot of the publish button at the top of the canvas.

    Nota:

    Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.

  22. Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.

    Screenshot of the Start button at the top of the canvas.

Supervisión de la captura de datos modificados

  1. Abra el panel Supervisar mediante cualquiera de estos métodos:

    • Seleccione Supervisar en Azure Portal.

      Screenshot of the Monitor button in the Azure portal.

    • Seleccione el icono de supervisión en el diseñador de CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Seleccione Captura de datos modificados (versión preliminar) para ver los recursos de CDC.

    Screenshot of the Change Data Capture button.

    El panel Captura de datos modificados muestra la información de Origen, Destino, Estado y Último procesamiento para la captura de datos modificados.

    Screenshot of an overview of the change data capture monitoring page.

  3. Seleccione el nombre de la CDC para ver más detalles. Puede ver cuántos cambios (inserción, actualización o eliminación) se leyeron y escribieron, junto con otra información de diagnóstico.

    Screenshot of the detailed monitoring of a selected change data capture.

    Si configura varias asignaciones en la captura de datos modificados, cada asignación aparece en un color diferente. Seleccione la barra para ver los detalles específicos de cada asignación o use la información de diagnóstico en la parte inferior de la pantalla.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.