Metodología correcta de la implementación de Synapse: evaluación del diseño de la integración de datos
Nota:
Este artículo forma parte de la serie de artículos Éxito en la implementación de Azure Synapse por diseño. Para más información general sobre la serie, consulte Implementación correcta de Azure Synapse por diseño.
Azure Synapse Analytics incluye el mismo motor de integración de datos y experiencias que Azure Data Factory (ADF), lo que permite crear canalizaciones de ELT a escala enriquecidas sin tener que salir de Azure Synapse Analytics.
En este artículo se describe cómo evaluar el diseño de los componentes de integración de datos para el proyecto. En concreto, le ayuda a determinar si las canalizaciones de Azure Synapse son las más adecuadas para los requisitos de integración de datos. El tiempo invertido en evaluar el diseño antes del desarrollo de soluciones puede ayudar a eliminar cambios inesperados de diseño que pueden afectar a la escala de tiempo o al costo del proyecto.
Ajuste del análisis de brechas
Debe realizar un análisis exhaustivo de la brecha de ajuste de la estrategia de integración de datos. Si elige canalizaciones de Azure Synapse como herramienta de integración de datos, revise los siguientes puntos para asegurarse de que sean la mejor opción para los requisitos de integración de datos y la orquestación. Incluso si elige diferentes herramientas de integración de datos, debe revisar los siguientes puntos para validar que se han considerado todos los puntos de diseño clave y que la herramienta elegida admitirá las necesidades de la solución. Esta información debe haberse capturado durante la evaluación realizada anteriormente en esta metodología.
- Revise los orígenes y destinos de datos (destinos):
- Compruebe que los almacenes de origen y destino son almacenes de datos compatibles.
- Si no se admiten, compruebe si puede usar las opciones extensibles.
- Revise los puntos de desencadenamiento de la integración de datos y la frecuencia:
- Las canalizaciones de Azure Synapse admiten la programación, la ventana de saltos de tamaño constante y los desencadenadores de eventos de almacenamiento.
- Valide el intervalo de periodicidad mínimo y los eventos de almacenamiento admitidos en sus requisitos.
- Revise los modos necesarios de integración de datos:
- El procesamiento por lotes programado, periódico y desencadenado se puede diseñar eficazmente en canalizaciones de Azure Synapse.
- Para implementar la funcionalidad de captura de datos modificados (CDC), use productos de terceros o cree una solución personalizada.
- Para admitir el streaming en tiempo real, use Azure Event Hubs, Azure Event Hubs desde Apache Kafka o Azure IoT Hub.
- Para ejecutar paquetes de Microsoft SQL Server Integration Services (SSIS), puede elevar y cambiar las cargas de trabajo de SSIS a la nube.
- Revise el diseño del proceso:
- ¿El proceso necesario para las canalizaciones tiene que ser sin servidor o aprovisionado?
- Las canalizaciones de Azure Synapse admiten ambos modos de entorno de ejecución de integración (IR): sin servidor o autohospedado en una máquina Windows.
- Valide los puertos y firewalls y la configuración de proxy al usar el entorno de ejecución de integración autohospedado (aprovisionado).
- Revise los requisitos de seguridad, la configuración de redes y firewall del entorno y compárelos con el diseño de la configuración de seguridad, redes y firewall:
- Revise cómo los orígenes de datos están protegidos y en red.
- Revise cómo los almacenes de datos de destino están protegidos y en red. Las canalizaciones de Azure Synapse tienen diferentes estrategias de acceso a datos que proporcionan una manera segura de conectar almacenes de datos a través de puntos de conexión privados o redes virtuales.
- Use Azure Key Vault para almacenar las credenciales siempre que corresponda.
- Use ADF para el cifrado de credenciales de clave administrada por el cliente (CMK) y almacénelos en el entorno de ejecución de integración autohospedado.
- Revise el diseño para la supervisión continua de todos los componentes de integración de datos.
Consideraciones sobre la arquitectura
A medida que revise el diseño de la integración de datos, tenga en cuenta las siguientes recomendaciones e instrucciones para asegurarse de que los componentes de integración de datos de la solución proporcionarán excelencia operativa continua, eficiencia del rendimiento, confiabilidad y seguridad.
Excelencia operativa
Para la excelencia operativa, evalúe los puntos siguientes.
- Ambiente: al planear los entornos, divídalos por desarrollo o prueba, pruebas de aceptación de usuario (UAT) y producción. Use las opciones organizativas de carpeta para organizar las canalizaciones y los conjuntos de datos por parte de trabajos empresariales o ETL para admitir una mejor capacidad de mantenimiento. Use anotaciones para etiquetar las canalizaciones para poder supervisarlas fácilmente. Cree canalizaciones reutilizables mediante parámetros, iteración y actividades condicionales.
- Supervisión y alertas: las áreas de trabajo de Synapse incluyen el centro de supervisión, que tiene información de supervisión enriquecida de cada ejecución de canalización. También se integra con Log Analytics para realizar más análisis de registros y alertas. Debe implementar estas características para proporcionar notificaciones proactivas de errores. Además, use las rutas de acceso tras errores para implementar el control de errores personalizado.
- Implementación y pruebas automatizadas: las canalizaciones de Azure Synapse están integradas en el área de trabajo de Synapse, por lo que puede aprovechar la automatización y la implementación del área de trabajo. Use plantillas de ARM para minimizar las actividades manuales al crear áreas de trabajo de Synapse. Además, integre áreas de trabajo de Synapse con Azure DevOps para compilar versiones de código y automatizar la publicación.
Eficiencia del rendimiento
Para la eficiencia del rendimiento, evalúe los puntos siguientes.
- Siga las instrucciones de rendimiento y las características de optimización al trabajar con la actividad de copia.
- Elija conectores optimizados para la transferencia de datos en lugar de conectores genéricos. Por ejemplo, use PolyBase en lugar de inserción masiva al mover datos de Azure Data Lake Storage Gen2 (ALDS Gen2) a un grupo de SQL dedicado.
- Al crear una instancia de Azure IR, establezca la ubicación de la región como resolución automática o seleccione la misma región que los almacenes de datos.
- En el entorno de ejecución de integración autohospedado, elija el tamaño de máquina virtual de Azure en función de los requisitos de integración.
- Elija una conexión de red estable, como Azure ExpressRoute, para un ancho de banda rápido y coherente.
Confiabilidad
Cuando se ejecuta una canalización mediante Azure IR, es de naturaleza sin servidor y por lo tanto proporciona resistencia lista para usar. Los clientes tienen poco que administrar. Sin embargo, cuando una canalización se ejecuta en un entorno de ejecución de integración autohospedado, se recomienda ejecutarla mediante una configuración de alta disponibilidad en máquinas virtuales de Azure. Esta configuración garantiza que las canalizaciones de integración no se interrumpen incluso cuando una máquina virtual se queda sin conexión. Además, se recomienda usar Azure ExpressRoute para una conexión de red rápida y confiable entre el entorno local y Azure.
Seguridad
Una plataforma de datos protegida es uno de los requisitos clave de cada organización. Debe planear exhaustivamente la seguridad de toda la plataforma en lugar de componentes individuales. Estas son algunas directrices de seguridad para las soluciones de canalización de Azure Synapse.
- Proteja el movimiento de datos a la nube mediante puntos de conexión privados de Azure Synapse.
- Use las identidades administradas de Microsoft Entra para la autenticación.
- Use el control de acceso basado en rol (RBAC) de Azure y RBAC de Synapse para la autorización.
- Almacene credenciales, secretos y claves en Azure Key Vault en lugar de en la canalización. Para más información, consulte Uso de secretos de Azure Key Vault en actividades de canalización.
- Conéctese a recursos locales a través de Azure ExpressRoute o VPN mediante puntos de conexión privados.
- Habilite las opciones de Salida segura y Entrada segura en las actividades de canalización cuando los parámetros almacenan secretos o contraseñas.
Pasos siguientes
En el siguiente artículo de la serie sobre el éxito de diseño de Azure Synapse, aprenda a evaluar el diseño del grupo de SQL dedicado para identificar problemas y validar que cumple las directrices y los requisitos.