Análisis e inteligencia empresarial (BI) sobre los datos de Azure Cosmos DB
Azure Cosmos DB ofrece varias opciones para permitir análisis a gran escala e informes de BI sobre los datos operativos.
Para extraer información significativa de los datos de Azure Cosmos DB, es posible que tenga que consultar varias particiones, colecciones o bases de datos. En algunos casos, puede combinar estos datos con otros orígenes de datos de su organización, como Azure SQL Database, Azure Data Lake Storage Gen2, etc. También puede realizar consultas con funciones de agregado, como suma, recuento, etc. Estas consultas necesitan mucha capacidad computacional, que probablemente consume más unidades de solicitud (RU) y, como resultado, podrían afectar potencialmente al rendimiento de la carga de trabajo crítica.
Para aislar las cargas de trabajo transaccionales del impacto que tienen en el rendimiento las consultas analíticas complejas, los datos de la base de datos se ingieren por la noche en una ubicación central mediante canalizaciones complejas de extracción, transformación y carga (ETL). Estos análisis basados en ETL son complejos y costosos y tardan en generar información sobre los datos empresariales.
Azure Cosmos DB aborda estos desafíos proporcionando cero ofertas de análisis ETL y rentables.
Cero ETL, análisis casi en tiempo real en Azure Cosmos DB
Azure Cosmos DB ofrece cero ETL, casi en tiempo real, análisis en los datos sin afectar al rendimiento de las cargas de trabajo transaccionales o unidades de solicitud (RU). Estas ofertas eliminan la necesidad de canalizaciones ETL complejas, lo que hace que los datos de Azure Cosmos DB estén disponibles completamente para los motores de análisis. Con una latencia reducida hasta llegar a la información, puede proporcionar una experiencia de cliente mejorada y reaccionar más rápidamente a los cambios en las condiciones del mercado o del entorno empresarial. Estos son algunos escenarios de ejemplo que puede lograr con conclusiones rápidas sobre los datos.
Puede habilitar el análisis ETL cero e informes de BI en Azure Cosmos DB mediante las siguientes opciones:
- Creación de reflejo de los datos en Microsoft Fabric
- Habilitación de Azure Synapse Link para acceder a datos desde Azure Synapse Analytics
Opción 1: Creación de reflejo de los datos de Azure Cosmos DB en Microsoft Fabric
La creación de reflejo permite incorporar completamente los datos de la base de datos de Azure Cosmos DB a Microsoft Fabric. Con cero ETL, puede obtener información empresarial rápida y enriquecida sobre los datos de Azure Cosmos DB mediante las funcionalidades integradas de análisis, BI e inteligencia empresarial de Fabric.
Los datos operativos de Cosmos DB se replican incrementalmente en Fabric OneLake casi en tiempo real. Los datos de OneLake se almacenan en formato Delta Parquet de código abierto y están disponibles para todos los motores analíticos de Fabric. Gracias al acceso abierto, puede usarlos con varios servicios de Azure, como Azure Databricks, Azure HDInsight, etc. OneLake también ayuda a unificar el estado de datos para sus necesidades analíticas. Los datos reflejados se pueden combinar con cualquier otro dato de OneLake, como Lakehouses, Warehouses o accesos directos. También puede unir datos de Azure Cosmos DB con otros orígenes de base de datos reflejados, como Azure SQL Database o Snowflake. Además, puede realizar consultas en todas las colecciones o bases de datos de Azure Cosmos DB reflejadas en OneLake.
Con Creación de reflejo en Fabric, no es necesario agrupar diferentes servicios de varios proveedores. En su lugar, puede disfrutar de un producto muy integrado, de un extremo a otro y fácil de usar diseñado para simplificar las necesidades de análisis. Puede usar T-SQL para ejecutar consultas de funciones agregadas complejas o Spark para la exploración de datos. Asimismo, puede acceder completamente a los datos de los cuadernos, usar la ciencia de datos para crear modelos de aprendizaje automático y crear informes de Power BI mediante Direct Lake impulsado por la integración enriquecida de Copilot.
Si desea analizar los datos operativos en Azure Cosmos DB, la creación de reflejo proporciona:
- Cero ETL, análisis casi en tiempo real casi en tiempo real en datos de Azure Cosmos DB sin afectar al consumo de la unidad de solicitud (RU)
- Facilidad para llevar datos de varios orígenes a Fabric OneLake
- Rendimiento mejorado de las consultas de las tablas delta de control del motor de SQL, con optimizaciones de orden V
- Mejora de la hora de inicio en frío del motor de Spark con una integración profunda con ML y cuadernos
- Integración con un solo clic con Power BI con Direct Lake y Copilot
- Integración de aplicaciones más completa para acceder a consultas y vistas con GraphQL
- Acceso abierto a y desde otros servicios, como Azure Databricks
Para empezar a trabajar con la creación de reflejo, visite "Introducción al tutorial de creación de reflejo".
Opción 2: Azure Synapse Link para acceder a datos desde Azure Synapse Analytics
Azure Synapse Link para Azure Cosmos DB crea una estrecha integración sin problemas entre Azure Cosmos DB y Azure Synapse Analytics, lo que permite cero ETL, casi en tiempo real, análisis en los datos operativos. Los datos transaccionales se sincronizan completamente con el almacén analítico, que almacena los datos en formato de columna optimizado para análisis.
Azure Synapse Analytics puede acceder a estos datos en el almacén analítico, sin ningún movimiento adicional, mediante Azure Synapse Link. Los analistas de negocios, ingenieros de datos y científicos de datos ahora pueden usar Spark en Synapse o Synapse SQL de forma indistinta para ejecutar canalizaciones de inteligencia empresarial, análisis y aprendizaje automático casi en tiempo real.
En la imagen siguiente se muestra la integración de Azure Synapse Link con Azure Cosmos DB y Azure Synapse Analytics:
Importante
La creación de reflejo en Microsoft Fabric ya está disponible en versión preliminar para la API NoSql. Esta característica proporciona todas las funcionalidades de Azure Synapse Link con un mejor rendimiento analítico, la posibilidad de unificar el estado de datos con Fabric OneLake y el acceso abierto a los datos en OneLake con formato Delta Parquet. Si está considerando Azure Synapse Link, le recomendamos probar la creación de reflejo para evaluar si es la solución adecuada para su organización. Para comenzar con la creación de reflejo, haga clic aquí.
Para empezar a trabajar con Azure Synapse Link, visite "Introducción a Azure Synapse Link".
Análisis en tiempo real y BI en Azure Cosmos DB: otras opciones
Existen algunas otras opciones para habilitar el análisis en tiempo real sobre los datos de Azure Cosmos DB:
- Usar la fuente de cambios
- Usar el conector de Spark directamente en Azure Cosmos DB
- Usar el conector de Power BI directamente en Azure Cosmos DB
Si bien estas opciones se incluyen para mayor exhaustividad y funcionan bien con consultas de partición única en tiempo real, estos métodos presentan los siguientes desafíos para las consultas analíticas:
Impacto en el rendimiento de la carga de trabajo:
Las consultas analíticas tienden a ser complejas y consumen una capacidad de proceso considerable. Cuando estas consultas se ejecutan directamente en los datos de Azure Cosmos DB, es posible que experimente una degradación del rendimiento en las consultas transaccionales.
Impacto sobre los costos:
Cuando las consultas analíticas se ejecutan directamente en la base de datos o las colecciones, aumentan la necesidad de unidades de solicitud asignadas, ya que las consultas analíticas tienden a ser complejas y necesitan más capacidad de cálculo. Un mayor uso de RU probablemente provocará un impacto significativo en el costo a lo largo del tiempo, si ejecuta consultas agregadas.
En lugar de estas opciones, se recomienda usar la creación de reflejos en Microsoft Fabric o Azure Synapse Link, que proporcionan un análisis ETL cero, sin afectar al rendimiento de la carga de trabajo transaccional ni a las unidades de solicitud.