Diseño de una solución de análisis e integración de datos con Azure Synapse Analytics

Completado

Azure Synapse Analytics combina características de análisis de macrodatos, almacenamiento de datos empresariales e integración de datos. El servicio le permite ejecutar consultas en datos sin servidor o datos a gran escala. Azure Synapse admite la ingesta de datos, la exploración, la transformación y la administración, y admite el análisis de todas las necesidades de BI y aprendizaje automático.

Cosas que se deben saber sobre Azure Synapse Analytics

Azure Synapse Analytics implementa una arquitectura de procesamiento paralelo masivo (MPP) y tiene las siguientes características.

  • La arquitectura Azure Synapse Analytics incluye un nodo control y un grupo de nodos compute.

    Diagrama que muestra el Azure Synapse Analytics architecture.

    El nodo de control es el cerebro de la arquitectura. Es el front-end que interactúa con todas las aplicaciones. Los nodos de cómputo proporcionan la potencia de cálculo. Los datos que se van a procesar se distribuyen uniformemente entre los nodos.

  • Las consultas se envían en forma de instrucciones Transact-SQL y Azure Synapse Analytics las ejecuta.

  • Azure Synapse usa una tecnología denominada PolyBase que permite recuperar y consultar datos de orígenes relacionales y no relacionales. Puede guardar los datos leídos en como tablas SQL en el servicio Azure Synapse.

Componentes de Azure Synapse Analytics

Azure Synapse Analytics se compone de los cinco elementos:

Diagrama que muestra información general sobre las funcionalidades de Azure Synapse Analytics.

  • Azure Synapse grupo de SQL: elija entre grupos de SQL dedicados para obtener un rendimiento y un costo coherentes o puntos de conexión SQL sin servidor para cargas de trabajo flexibles y a petición.

  • Azure Synapse grupo de Spark: ejecución de clústeres de Apache Spark para procesar datos mediante Python, Scala, SQL o C#.

  • Azure Synapse Pipelines: use flujos de trabajo de ETL basados en la nube para mover y transformar datos a escala, combinando varios orígenes si es necesario.

  • Azure Synapse Link: Conéctese a Azure Cosmos DB para realizar análisis casi en tiempo real en los datos operativos.

  • Azure Synapse Studio: trabaje en un IDE basado en web central para administrar grupos, canalizaciones y vínculos de datos de SQL y Spark.

Opciones analíticas

Azure Synapse Analytics admite una variedad de escenarios analíticos. A medida que revise la tabla, tenga en cuenta cómo se aplican los escenarios a la organización Tailwind Traders.

Análisis Escenario Descripción
Descriptivo ¿Qué pasa? Azure Synapse aplica la funcionalidad de grupo de SQL dedicado, que permite crear un almacenamiento de datos persistente para analizar qué va a suceder posteriormente. Puede usar la piscina de SQL sin servidor para preparar datos de archivos almacenados en un lago de datos y crear de manera interactiva un almacén de datos.
Diagnóstico ¿Por qué está sucediendo? Puede usar la funcionalidad del grupo de SQL sin servidor en Azure Synapse para explorar de forma interactiva los datos dentro de un lago de datos. Los grupos de SQL sin servidor permiten de forma rápida que un usuario busque datos adicionales que puedan ayudarle a comprender por qué sucede algo.
Predictivo ¿Qué es probable que suceda? Azure Synapse Analytics utiliza su motor integrado de Apache Spark y los pools de Spark de Azure Synapse para el análisis predictivo. Combina esta acción con otros servicios, como los de Azure Machine Learning Services y Azure Databricks, para ayudarte a responder preguntas sobre el futuro.
Prescriptivo ¿Qué hay que hacer? Puede usar la analítica prescriptiva con datos en tiempo real o casi en tiempo real para ayudarle a identificar soluciones para sus preguntas de qué acción. Azure Synapse Analytics proporciona esta funcionalidad a través de Apache Spark y Azure Synapse Link y mediante la integración de tecnologías de streaming como Azure Stream Analytics.

Escenario empresarial

Vamos a examinar un escenario en el que la empresa atiende a los clientes con información de mercado de valores. Debe proporcionar una combinación de procesamiento por lotes y flujos para admitir la infraestructura de Tailwind Traders. Los datos actualizados al segundo se pueden usar para ayudar a supervisar en tiempo real dónde se requiere una decisión instantánea para tomar decisiones informadas de compra o venta en cuestión de segundos. Los datos históricos son igualmente importantes para una vista de las tendencias del rendimiento. ¿Qué tipo de solución de almacenamiento de datos e integración de datos recomendaría para proporcionar acceso a los flujos de datos sin procesar y a la información empresarial preparada derivada de estos datos? Con Azure Synapse Analytics, puede ingerir datos de orígenes externos y, a continuación, transformar y agregar estos datos en un formato adecuado para el procesamiento de análisis.

Aspectos que se deben tener en cuenta al elegir Azure Data Factory o Azure Synapse Analytics

En la tabla siguiente se comparan los criterios de solución de almacenamiento para usar Azure Data Factory frente a Azure Synapse Analytics. Revise los criterios y considere cuál es la solución óptima para Tailwind Traders.

Comparación Azure Data Factory Azure Synapse Analytics
Uso compartido de datos Los datos pueden compartirse entre diferentes factorías de datos No soportado
Plantillas de solución Las plantillas de solución se proporcionan con la galería de plantillas de Azure Data Factory Las plantillas de solución se proporcionan en el Centro de conocimiento del área de trabajo de Synapse
Flujos entre regiones del entorno de ejecución de integración Se admiten flujos de datos entre regiones No compatible
Supervisión de datos La supervisión de datos se integra con Azure Monitor Los registros de diagnóstico están disponibles en Azure Monitor
Supervisión de trabajos de Spark para el flujo de datos No está soportado Los trabajos de Spark se pueden supervisar en cuanto al flujo de datos mediante los grupos de Spark de Synapse.

Azure Synapse Analytics es una solución ideal para muchos otros escenarios. Considere las opciones siguientes:

  • Considere la variedad de orígenes de datos. Cuando tiene varios orígenes de datos que usan Azure Synapse Analytics para actividades de flujo de datos y ETL sin código.

  • Consider Machine Learning. Cuando necesite implementar soluciones de Machine Learning mediante Apache Spark, puede usar Azure Synapse Analytics para la compatibilidad integrada con Azure Machine Learning.

  • Considere la posibilidad de integrar lagos de datos. Cuando tiene datos existentes almacenados en un lago de datos y necesita integración con Azure Data Lake y otros orígenes de entrada, Azure Synapse Analytics proporciona una integración perfecta entre los dos componentes.

  • Considere la posibilidad de realizar análisis en tiempo real. Cuando necesite análisis en tiempo real, puede usar características como Azure Synapse Link para analizar datos en tiempo real y ofrecer información.

  • Consider Microsoft Fabric. Microsoft recomienda Microsoft Fabric en lugar de nuevas implementaciones de Synapse.

Sugerencia

Obtenga más conocimientos con el aprendizaje autodirigido, Introducción al análisis de extremo a extremo mediante Microsoft Fabric.