Carga de datos en Azure Synapse Analytics mediante una canalización de Azure Data Factory o Synapse

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Azure Synapse Analytics es una base de datos de escalabilidad horizontal y basada en la nube capaz de procesar volúmenes masivos de datos (tanto relacionales como no relacionales). Basada en la arquitectura de procesamiento paralelo masivo (MPP), está mejorada para controlar las cargas de trabajo empresariales. Ofrece elasticidad en la nube con la flexibilidad para escalar almacenamiento y proceso de forma independiente.

Comenzar a trabajar con Azure Synapse Analytics es ahora más fácil que nunca. Azure Data Factory y su característica de canalizaciones equivalente dentro de Azure Synapse proporcionan un servicio de integración de datos basado en la nube totalmente administrado. Puede usar el servicio para rellenar una instancia de Azure Synapse Analytics con los datos del sistema actual y ahorrar tiempo al crear las soluciones de análisis.

Las canalizaciones de Azure Data Factory y Synapse ofrecen los siguientes beneficios a la hora de cargar datos en Azure Synapse Analytics:

  • Fácil de configurar: con un asistente intuitivo en cinco pasos sin necesidad de scripting.
  • Amplia compatibilidad para el almacenamiento de datos: compatibilidad integrada para un amplio conjunto de almacenes de datos tanto locales como en la nube. Para una lista detallada, consulte la tabla de almacenes de datos admitidos.
  • Seguro y compatible: los datos se transfieren a través de HTTPS o ExpressRoute. La presencia del servicio global garantiza que los datos nunca abandonan el límite geográfico.
  • Rendimiento sin precedentes mediante PolyBase: Polybase es la forma más eficaz de mover datos a Azure Synapse Analytics. Mediante la característica de blob de almacenamiento provisional, puede alcanzar velocidades de carga altas para todos los tipos de almacenes de datos, incluido Azure Blob Storage y Data Lake Store. (Polybase es compatible con Azure Blob Storage y Azure Data Lake Store de forma predeterminada). Para más información, consulte el rendimiento de la actividad de copia.

En este artículo se muestra cómo usar la herramienta Copiar datos para cargar datos de Azure SQL Database en Azure Synapse Analytics. Puede seguir los mismos pasos para copiar datos de otros tipos de almacenes de datos.

Nota

Para obtener más información, vea Copia de datos en o desde Azure Synapse Analytics.

Requisitos previos

  • Suscripción de Azure: Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
  • Azure Synapse Analytics: Este almacén de datos contiene los datos que se copian de SQL Database. Si no tiene una instancia de Azure Synapse Analytics, consulte las instrucciones de Creación de una instancia de Azure Synapse Analytics.
  • Azure SQL Database: este tutorial copia los datos del conjunto de datos de ejemplo Adventure Works LT en Azure SQL Database. Puede crear esta base de datos de ejemplo en SQL Database si sigue las instrucciones que aparecen en Creación de una base de datos de ejemplo en Azure SQL Database.
  • Cuenta de almacenamiento de Azure: Azure Storage se usa como blob de almacenamiento provisional en la operación de copia masiva. Si no dispone de una cuenta de almacenamiento de Azure, consulte las instrucciones de Creación de una cuenta de almacenamiento.

Crear una factoría de datos

  1. Si aún no ha creado la factoría de datos, siga los pasos descritos en Inicio rápido: Creación de una factoría de datos mediante Azure Portal y Azure Data Factory Studio para crear una. Después de crearla, vaya a la factoría de datos en Azure Portal.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Seleccione Open (Abrir) en el icono Open Azure Data Factory Studio (Abrir Azure Data Factory Studio) para iniciar la aplicación de integración de datos en una pestaña independiente.

Carga de datos en Azure Synapse Analytics

  1. En la página principal de Azure Data Factory o el área de trabajo de Azure Synapse, seleccione el icono Ingerir para iniciar la herramienta Copiar datos. Luego elija Built-in copy task (Tarea de copia integrada).

  2. En la página Propiedades, elija Built-in copy task (Tarea de copia integrada) en Tipo de tarea y seleccione Siguiente.

    Properties page

  3. En la página Almacén de datos de origen, realice los pasos siguientes:

    Sugerencia

    En este tutorial, usará Autenticación de SQL como tipo de autenticación para el almacén de datos de origen, pero puede elegir otros métodos de autenticación compatibles: Entidad de servicio e Identidad administrada si es necesario. Consulte las secciones correspondientes en este artículo para más información. Para almacenar los secretos de los almacenes de datos de forma segura, también se recomienda usar Azure Key Vault. Consulte este artículo para obtener instrucciones detalladas.

    1. Seleccione + Nueva conexión.

    2. Seleccione Azure SQL Database en la galería y seleccione Continuar. Puede escribir "SQL" en el cuadro de búsqueda para filtrar los conectores.

      Select Azure SQL DB

    3. En la página Nueva conexión (Azure SQL Database) , seleccione el nombre del servidor y el de la base de datos en la lista desplegable y especifique el nombre de usuario y la contraseña. Seleccione Probar conexión para validar la configuración y luego Crear.

      Configure Azure SQL DB

    4. En la página Almacén de datos de origen, seleccione la conexión recién creada como origen en la sección Conexión.

    5. En la sección Tablas de origen, escriba SalesLT para filtrar las tablas. Elija el cuadro Seleccionar todo para usar todas las tablas para la copia y, a continuación, seleccione Siguiente.

    Screenshot showing the configuration of 'Source data store' page.

  4. En la página Aplicar filtro, especifique la configuración o seleccione Siguiente. Puede obtener una vista previa de los datos y ver el esquema de los datos de entrada si selecciona el botón Vista previa de los datos en esta página.

     Screenshot showing the 'Apply filter' page.

  5. En la página Almacén de datos de destino, realice los pasos siguientes:

    Sugerencia

    En este tutorial, usará Autenticación de SQL como tipo de autenticación para el almacén de datos de destino, pero puede elegir otros métodos de autenticación compatibles: Entidad de servicio e Identidad administrada si es necesario. Consulte las secciones correspondientes en este artículo para más información. Para almacenar los secretos de los almacenes de datos de forma segura, también se recomienda usar Azure Key Vault. Consulte este artículo para obtener instrucciones detalladas.

    1. Seleccione + Nueva conexión para agregar una conexión.

    2. Seleccione Azure Synapse Analytics de la galería y seleccione Continuar.

      Select Azure Synapse Analytics

    3. En la página Nueva conexión (Azure Synapse Analytics) , seleccione el nombre del servidor y el de la base de datos en la lista desplegable y especifique el nombre de usuario y la contraseña. Seleccione Probar conexión para validar la configuración y luego Crear.

      Configure Azure Synapse Analytics

    4. En la página Almacén de datos de destino, seleccione la conexión recién creada en la sección Conexión.

  6. En la página Asignación de tabla, revise el contenido y seleccione Siguiente. Se muestra una asignación de tabla inteligente. Las tablas de origen se asignan a las tablas de destino en función de los nombres de tabla. Si no hay ninguna tabla de origen en el destino, el servicio crea una con el mismo nombre de manera predeterminada. También se puede asignar una tabla de origen a una tabla de destino existente.

    Screenshot showing the configuration of 'Destination data store' page.

  7. En la página Asignación de columnas, revise el contenido y seleccione Siguiente. La asignación inteligente de tabla se basa en el nombre de las columnas. Si permite que el servicio cree automáticamente las tablas, la conversión de tipos de datos puede producirse cuando haya incompatibilidades entre los almacenes de origen y de destino. Si hay una conversión de tipos de datos no compatibles entre las columnas de origen y de destino, verá un mensaje de error junto a la tabla correspondiente.

    Column mapping page

  8. En la página Settings (Configuración), siga estos pasos:

    1. Especifique CopyFromSQLToSQLDW en el campo Nombre de tarea.

    2. En la sección Staging settings (Configuración de almacenamiento provisional), seleccione + Nuevo para crear un nuevo almacenamiento provisional. El almacenamiento se usa para almacenar provisionalmente los datos antes de cargarlos en Azure Synapse Analytics mediante PolyBase. Una vez que se completa la copia, los datos provisionales en Azure Blob Storage se limpian automáticamente.

    3. En la página New Linked Service (Nuevo servicio vinculado), seleccione la cuenta de almacenamiento y luego Crear para implementar el servicio vinculado.

    4. Anule la selección de la opción Use type default (Usar tipo predeterminado) y luego seleccione Siguiente.

    Configure PolyBase

  9. En la página Resumen, revise la configuración y seleccione Siguiente.

  10. En la página Deployment (Implementación), seleccione Monitor (Supervisión) para supervisar la canalización (tarea).

     Screenshot showing the deployment page.

  11. Observe que la pestaña Monitor (Supervisión) de la izquierda se selecciona automáticamente. Cuando la ejecución de canalización finalice correctamente, seleccione el vínculo CopyFromSQLToSQLDW en la columna Nombre de canalización para ver los detalles de la ejecución de actividad o volver a ejecutar la canalización.


  1. Para volver a la vista de ejecuciones de canalización, seleccione el vínculo Todas las ejecuciones de la canalización. Seleccione Refresh (Actualizar) para actualizar la lista.

    Monitor activity runs

  2. Para supervisar los detalles de la ejecución de cada actividad de copia, seleccione el vínculo Detalles (icono de gafas) en Nombre de actividad en la vista de ejecuciones de actividad. Puede supervisar detalles como el volumen de datos copiados desde el origen al receptor, el rendimiento de los datos, los pasos de ejecución con su duración correspondiente y las configuraciones que se utilizan.

    Monitor activity run details first

    Monitor activity run details second

Continúe al artículo siguiente para obtener información sobre la compatibilidad de Azure Synapse Analytics: