¿Qué es Azure Synapse Link para Azure Cosmos DB (versión preliminar)?
SE APLICA A: NoSQL MongoDB Gremlin
Azure Synapse Link para Azure Cosmos DB es una funcionalidad híbrida de procesamiento analítico y transaccional (HTAP) nativa de nube que permite ejecutar análisis casi en tiempo real sobre datos operativos en Azure Cosmos DB. Azure Synapse Link crea una integración perfecta y sin contratiempos entre Azure Cosmos DB y Azure Synapse Analytics.
Importante
La creación de reflejo de Azure Cosmos DB en Microsoft Fabric ya está disponible para la API de NoSql. Esta característica proporciona todas las funcionalidades de Azure Synapse Link con un mejor rendimiento analítico, la posibilidad de unificar el patrimonio de datos con Fabric OneLake y el acceso abierto a los datos en formato Delta Parquet. Si está considerando Azure Synapse Link, le recomendamos probar la creación de reflejo para evaluar si es la solución adecuada para su organización. Introducción a la creación de reflejo en Microsoft Fabric.
El almacén analítico de Azure Cosmos DB, un almacén de columnas totalmente aislado, se puede usar con Azure Synapse Link para permitir la realización de análisis de extracción, transformación y carga (ETL) en Azure Synapse Analytics en los datos operativos a escala. Los analistas de negocios, ingenieros de datos y científicos de datos ahora pueden usar Spark en Synapse o Synapse SQL de forma indistinta para ejecutar canalizaciones de inteligencia empresarial, análisis y aprendizaje automático casi en tiempo real. Puede analizar datos en tiempo real sin afectar al rendimiento de las cargas de trabajo transaccionales en Azure Cosmos DB.
En la imagen siguiente se muestra la integración de Azure Synapse Link con Azure Cosmos DB y Azure Synapse Analytics:
Ventajas
Para analizar conjuntos de datos operativos grandes, al tiempo que minimiza los efectos del rendimiento de las cargas de trabajo transaccionales críticas, los clientes de Azure Cosmos DB exportan los datos operativos de forma tradicional. Estas operaciones las realizan las canalizaciones Carga de transformación y extracción (ETL), que requieren muchas capas de administración de datos y trabajos, lo que da lugar a la complejidad operativa y los efectos de rendimiento en las cargas de trabajo transaccionales. También aumenta la latencia para analizar los datos operativos desde que se generan.
Cuando se compara con soluciones tradicionales basadas en ETL, Azure Synapse Link para Azure Cosmos DB ofrece varias ventajas, como:
Complejidad reducida en los trabajos sin ETL que se administrarán
Azure Synapse Link permite acceder directamente al almacén analítico de Azure Cosmos DB con Azure Synapse Analytics sin realizar movimientos de datos complejos. Todas las actualizaciones realizadas en los datos operativos se pueden ver en el almacén analítico casi en tiempo real sin ETL ni trabajos de fuentes de cambios. Puede ejecutar análisis de gran escala en el almacén analítico, desde Azure Synapse Analytics, sin una transformación de datos adicional.
Conclusiones casi en tiempo real sobre los datos operativos
Ahora puede obtener conclusiones completas sobre los datos operativos casi en tiempo real, mediante Azure Synapse Link. Los sistemas basados en ETL suelen tener una mayor latencia al analizar los datos operativos, debido a las muchas capas necesarias para extraer, transformar y cargar los datos operativos. Con la integración nativa del almacén analítico de Azure Cosmos DB con Azure Synapse Analytics, puede analizar los datos operativos casi en tiempo real al habilitar nuevos escenarios empresariales.
Sin riesgo para el rendimiento en las cargas de trabajo operativas
Con Azure Synapse Link, puede ejecutar consultas analíticas en el almacén de Azure Cosmos DB, que es una representación del almacén de sus datos en columnas. Puede ejecutar consultas mientras las operaciones transaccionales se procesan con el rendimiento aprovisionado para la carga de trabajo transaccional en el almacén transaccional basado en filas Azure Cosmos DB. La carga de trabajo analítica se proporciona independientemente del tráfico de la carga de trabajo transaccional sin consumir el rendimiento aprovisionado de los datos operativos.
Optimización para las cargas de trabajo de análisis de gran escala
El almacén analítico de Azure Cosmos DB está optimizado para proporcionar escalabilidad, elasticidad y rendimiento para las cargas de trabajo analíticas sin depender de los tiempos de ejecución de proceso. La tecnología de almacenamiento se administra automáticamente para optimizar las cargas de trabajo de análisis. Gracias a la compatibilidad integrada con Azure Synapse Analytics, el acceso a esta capa de almacenamiento ofrece simplicidad y alto rendimiento.
Rentable
Con Azure Synapse Link, puede obtener una solución totalmente administrada y optimizada para costos para el análisis operativo. Elimina el almacenamiento adicional y las capas de proceso que se necesitan en las canalizaciones de ETL tradicionales para analizar los datos operativos.
El almacén analítico de Azure Cosmos DB sigue un modelo de precios basado en el consumo, en función de las consultas y operaciones de escritura/lectura de análisis y almacenamiento de datos ejecutadas. No se requiere que asigne ningún rendimiento, de la forma en que hace actualmente para las cargas de trabajo transaccionales. El acceso a los datos con motores de proceso altamente elásticos desde Azure Synapse Analytics hace que el costo general de ejecutar el almacenamiento y el proceso sea eficaz.
Análisis para datos con arquitectura de varias regiones, distribuidos globalmente y disponibles de forma local
Puede ejecutar consultas analíticas de forma eficaz en la copia regional más cercana de los datos en Azure Cosmos DB. Azure Cosmos DB proporciona la capacidad de última generación para ejecutar las cargas de trabajo analíticas distribuidas globalmente junto con las cargas de trabajo transaccionales de manera activa /activa.
Habilitación de escenarios de HTAP para los datos operativos
Azure Synapse Link reúne el almacén analítico de Azure Cosmos DB con la compatibilidad con el tiempo de ejecución de Azure Synapse Analytics. Esta integración le permitirá crear soluciones HTAP nativas de la nube que generan conclusiones basadas en actualizaciones en tiempo real de los datos operativos en conjuntos de datos de gran tamaño. Desbloquea nuevos escenarios empresariales para generar alertas basadas en tendencias en vivo, compilar paneles casi en tiempo real y experiencias empresariales basadas en el comportamiento del usuario.
Almacén analítico de Azure Cosmos DB
El almacén analítico de Azure Cosmos DB es una representación orientada a columnas de los datos operativos en Azure Cosmos DB. Este almacén analítico es adecuado para realizar consultas rápidas y rentables en conjuntos de datos operativos grandes. Este almacén puede consultar datos sin copiar datos ni afectar al rendimiento de sus cargas de trabajo transaccionales.
El almacén analítico selecciona automáticamente las inserciones, actualizaciones y eliminaciones más frecuentes en las cargas de trabajo transaccionales casi en tiempo real, como una funcionalidad totalmente administrada (“sincronización automática”) de Azure Cosmos DB. No se requiere ninguna fuente de cambios ni ETL.
Si tiene una cuenta de Azure Cosmos DB distribuida de forma global, después de habilitar el almacén analítico para un contenedor, estará disponible en todas las regiones de esa cuenta. Para obtener más información sobre el almacén analítico, consulte el artículo Información general sobre el almacén analítico de Azure Cosmos DB.
Integración con Azure Synapse Analytics
Con Azure Synapse Link, ahora puede conectarse directamente a los contenedores de Azure Cosmos DB desde Azure Synapse Analytics y acceder al almacén analítico sin conectores independientes. Azure Synapse Analytics admite actualmente Azure Synapse Link con Apache Spark en Synapse y grupos de SQL sin servidor.
Puede consultar los datos del almacén analítico de Azure Cosmos DB simultáneamente, con interoperabilidad entre los diferentes tiempos de ejecución de análisis que admite Azure Synapse Analytics. No se requieren transformaciones de datos adicionales para analizar los datos operativos. Puede consultar y analizar los datos del almacén analítico mediante:
Apache Spark en Synapse con compatibilidad completa con Scala, Python, SparkSQL y C#. Spark en Synapse es fundamental para los escenarios de ciencia de datos e ingeniería de datos.
El grupo de SQL sin servidor con lenguaje T-SQL y compatibilidad con herramientas de inteligencia empresarial conocidas (por ejemplo, Power BI Premium, etc.).
Nota
Desde Azure Synapse Analytics, puede acceder a almacenes de análisis y transacciones en el contenedor de Azure Cosmos DB. Sin embargo, si quiere ejecutar un análisis o examen a gran escala en los datos operativos, se recomienda que use el almacén analítico para evitar el impacto en el rendimiento de las cargas de trabajo transaccionales.
Nota
Puede ejecutar análisis con baja latencia en una región de Azure al conectar el contenedor de Azure Cosmos DB con el entorno de ejecución de Synapse en esa región.
Esta integración habilita los siguientes escenarios de HTAP para distintos usuarios:
Un ingeniero de BI que quiere crear un modelo y publicar un informe de Power BI para acceder a los datos operativos en tiempo real en Azure Cosmos DB directamente mediante Synapse SQL.
Un analista de datos que quiere obtener información sobre los datos operativos de un contenedor de Azure Cosmos DB mediante una consulta con Synapse SQL, leer los datos a gran escala y combinar dichos resultados con otros orígenes de datos.
Un científico de datos que quiere usar Spark en Synapse para buscar una característica para mejorar su modelo y entrenarlo sin realizar ingeniería de datos complejos. También pueden escribir los resultados del modelo después de la inferencia en Azure Cosmos DB para la puntuación en tiempo real de los datos a través de Spark en Synapse.
Un ingeniero de datos que quiere que los consumidores puedan acceder a los datos mediante la creación de tablas de SQL o Spark en contenedores de Azure Cosmos DB sin realizar procesos de ETL manuales.
Para obtener más información sobre la compatibilidad del entorno de ejecución de Azure Synapse Analytics con Azure Cosmos DB, consulte Compatibilidad de Azure Synapse Analytics con Azure Cosmos DB.
Cuándo usar Azure Synapse Link para Azure Cosmos DB
Azure Synapse Link se recomienda en caso de que sea un cliente de Azure Cosmos DB y quiera ejecutar análisis, BI y aprendizaje automático con sus datos operativos. Por ejemplo:
Si actualmente está ejecutando análisis o inteligencia empresarial en sus datos operativos de Azure Cosmos DB directamente mediante conectores independientes, o
Si está ejecutando procesos de ETL para extraer datos operativos para un sistema de análisis independiente.
En tales casos, Azure Synapse Link proporciona una experiencia de análisis más integrada sin afectar al rendimiento aprovisionado del almacén transaccional.
Azure Synapse Link no se recomienda si está buscando requisitos de almacenamiento de datos tradicionales. Entre estos requisitos podemos encontrar alta simultaneidad, administración de cargas de trabajo y persistencia de agregados en varios orígenes de datos. Para obtener más información, consulte los escenarios comunes que pueden aprovechar Azure Synapse Link para Azure Cosmos DB.
Limitaciones
Azure Synapse Link para Azure Cosmos DB es compatible con las API de NoSQL, Gremlin y MongoDB. No se admite para Cassandra ni Table API.
El Explorador de datos en áreas de trabajo de Synapse no muestra gráficos de Gremlin en la vista de árbol. Pero todavía puede ejecutar consultas.
Actualmente no se admite el acceso al almacén de análisis de Azure Cosmos DB con el grupo de SQL dedicado de Azure Synapse.
Aunque no se realiza una copia de seguridad de los datos del almacén analítico y, por lo tanto, no se pueden restaurar, puede recompilar el almacén analítico si habilita Azure Synapse Link en el contenedor restaurado. Consulte la documentación de almacenamiento analítico para obtener más información.
Synapse Link para las cuentas de base de datos que usan el modo de copia de seguridad continua es GA. El modo de copia de seguridad continua para las cuentas habilitadas para Synapse Link está en versión preliminar pública. Actualmente, los clientes que deshabilitan Synapse Link desde contenedores no pueden migrar a la copia de seguridad continua.
No se admite el control de acceso basado en roles granular al hacer consultas desde Synapse. Los usuarios que tienen acceso al área de trabajo de Synapse y tienen acceso a la cuenta de Azure Cosmos DB pueden acceder a todos los contenedores de esa cuenta. Actualmente no se admite un acceso más granular a los contenedores.
Actualmente, las áreas de trabajo de Azure Synapse no admiten servicios vinculados mediante
Managed Identity
. Use siempre la opciónMasterKey
.Actualmente, no se recomiendan las cuentas de escritura de varias regiones para los entornos de producción.
Seguridad
Azure Synapse Link le permite ejecutar análisis casi en tiempo real sobre los datos críticos de Azure Cosmos DB. Es fundamental asegurarse de que los datos empresariales críticos se almacenen de forma segura en los almacenes transaccionales y analíticos. Azure Synapse Link para Azure Cosmos DB está diseñado para ayudar a satisfacer estos requisitos de seguridad mediante las siguientes características:
Aislamiento de red con puntos de conexión privados: puede controlar el acceso de red a los datos de los almacenes transaccionales y analíticos de forma independiente. El aislamiento de red se realiza mediante puntos de conexión privados administrados distintos para cada almacén, dentro de redes virtuales administradas en áreas de trabajo de Azure Synapse. Para más información, consulte el artículo Configuración de puntos de conexión privados para almacenes analíticos.
Cifrado de datos con claves administradas por el cliente: puede cifrar completamente los datos de los almacenes transaccionales y analíticos con las mismas claves administradas por el cliente de manera automática y transparente. Azure Synapse Link solamente admite la configuración de claves administradas por el cliente mediante la identidad administrada de la cuenta de Azure Cosmos DB. Debe configurar la identidad administrada de la cuenta en la directiva de acceso de Azure Key Vault antes de habilitar Azure Synapse Link en la cuenta. Para más información, consulte el artículo Configuración de claves administradas por el cliente para una cuenta de Azure Cosmos con Azure Key Vault.
Administración segura de claves: para acceder a los datos del almacén analítico desde Synapse Spark y grupos de SQL sin servidor de Synapse, es necesario administrar las claves de Azure Cosmos DB dentro de las áreas de trabajo de Synapse Analytics. En lugar de usar las claves de la cuenta de Azure Cosmos DB insertadas en trabajos de Spark o scripts de SQL, Azure Synapse Link proporciona funcionalidades más seguras:
Con los grupos de SQL sin servidor de Synapse, puede consultar el almacén analítico de Azure Cosmos DB; para ello, se crean previamente credenciales de SQL que almacenan las claves de cuenta y se hace referencia a estas en la función
OPENROWSET
. Para más información, consulte el artículo Consulta con grupos de SQL sin servidor en Azure Synapse Link.Con Synapse Spark, puede almacenar las claves de cuenta en los objetos de servicio vinculado que apuntan a una base de datos de Azure Cosmos DB y hacer referencia a estas claves en la configuración de Spark en tiempo de ejecución. Para más información, consulte el artículo Copia de datos en un grupo de SQL dedicado mediante Apache Spark.
Precios
El modelo de facturación de Azure Synapse Link incluye los costos en los que se incurre al usar el almacén analítico de Azure Cosmos DB y el entorno de ejecución de Synapse. Para obtener más información, consulte los artículos sobre los precios del almacén analítico de Azure Cosmos DB y los precios de Azure Synapse Analytics.
Pasos siguientes
Para obtener más información, consulte la siguiente documentación: