Elección de un almacén de datos analíticos en Azure

2025-05-23

En una arquitectura de macrodatos , a menudo es necesario un almacén de datos analíticos que sirva los datos procesados en un formato estructurado que se pueda consultar mediante herramientas analíticas. Los almacenes de datos analíticos que admiten la consulta de datos de ruta de acceso activa y de ruta de acceso en frío se conocen colectivamente como capa de servicio o almacenamiento de servicios de datos.

La capa de presentación controla los datos procesados de la ruta rápida y la ruta fría. En la arquitectura lambda, la capa de servicio se subdivide en dos capas. La capa de servicio de velocidad contiene los datos procesados incrementalmente. La capa de servicio por lotes contiene la salida procesada por lotes. La capa de servicio requiere una compatibilidad sólida con las lecturas aleatorias que tienen baja latencia. El almacenamiento de datos para la capa de velocidad también debe admitir escrituras aleatorias porque la carga por lotes de datos en este almacén presenta retrasos no deseados. Como alternativa, el almacenamiento de datos para la capa de lote debe admitir escrituras por lotes, no escrituras aleatorias.

No hay ninguna opción de administración de datos única para todas las tareas de almacenamiento de datos. Las distintas soluciones de administración de datos están optimizadas para tareas diferentes. La mayoría de las aplicaciones en la nube del mundo real y los procesos de macrodatos tienen varios requisitos de almacenamiento de datos y, a menudo, usan una combinación de soluciones de almacenamiento de datos.

Las soluciones analíticas modernas, como Microsoft Fabric, proporcionan una plataforma completa que integra varios servicios de datos y herramientas para satisfacer diversas necesidades analíticas. Fabric incluye OneLake, que es un lago de datos lógico y unificado para toda la organización. OneLake está diseñado para almacenar, administrar y proteger todos los datos de la organización en una sola ubicación. Esta flexibilidad permite a su organización abordar una amplia gama de requisitos de procesamiento y almacenamiento de datos.

Elección de un almacén de datos analíticos

Hay varias opciones para el almacenamiento de servicios de datos en Azure, con el fin de que pueda elegir la que más se ajuste a sus necesidades:

Los siguientes modelos de base de datos están optimizados para diferentes tipos de tareas:

Las bases de datos key-value almacenan un único objeto serializado para cada valor de clave. Son adecuados para administrar grandes volúmenes de datos cuando la recuperación se basa en una clave específica, sin necesidad de consultar otras propiedades de elemento.
Las bases de datos de documentos son bases de datos clave-valor en las que los valores son documentos. En este contexto, un documento es una colección de campos y valores con nombre. Normalmente, la base de datos almacena los datos en un formato como XML, YAML, JSON o JSON binario, pero podría usar texto sin formato. Las bases de datos de documentos pueden consultar en campos que no son clave y definir índices secundarios para mejorar la eficacia de las consultas. Esta funcionalidad hace que una base de datos de documentos sea más adecuada para las aplicaciones que necesitan recuperar datos en función de criterios más complejos que el valor de la clave de documento. Por ejemplo, puede realizar consultas en campos como el de id. del producto, id. del cliente o nombre del cliente.
Bases de datos orientadas a columnas son almacenes de datos clave/valor que almacenan cada columna por separado en el disco. Una base de datos de almacén de columnas ancha es un tipo de base de datos de almacén de columnas que almacena familias de columnas, no solo columnas únicas. Por ejemplo, una base de datos del censo podría tener una familia de columnas independiente para cada uno de los siguientes elementos:
- Primero, medio y apellido de una persona
- Dirección de esa persona
- Información de perfil de esa persona, como su fecha de nacimiento o género
La base de datos puede almacenar cada familia de columnas en una partición independiente, al tiempo que mantiene todos los datos de una persona relacionados con la misma clave. Una aplicación puede leer una sola familia de columnas sin examinar todos los datos de una entidad.
Las bases de datos de grafos almacenan información como una colección de objetos y relaciones. Una base de datos de grafos puede realizar de manera eficaz consultas que atraviesan la red de objetos y las relaciones entre ellos. Por ejemplo, los objetos podrían ser los empleados en una base de datos de recursos humanos y puede desear facilitar consultas como "buscar todos los empleados que trabajan directa o indirectamente para Scott".
Las bases de datos de telemetría y de serie temporal son una colección de objetos que solo se anexan. Las bases de datos de telemetría indexan de forma eficaz los datos en varios almacenes de columnas y estructuras en memoria. Esta funcionalidad las convierte en la opción óptima para almacenar y analizar grandes cantidades de datos de telemetría y series temporales.

Fabric admite varios modelos de base de datos, como clave-valor, documento, almacén de columnas, grafos y bases de datos de telemetría. Esta flexibilidad garantiza la escalabilidad de una amplia gama de tareas analíticas.

Principales criterios de selección

Para refinar el proceso de selección, tenga en cuenta los siguientes criterios:

¿Necesita almacenamiento de servicios que pueda servir como ruta de acceso activa para los datos? En caso afirmativo, limite las opciones a las que están optimizadas para una capa de servicio rápido.
¿Necesita compatibilidad con el procesamiento paralelo masivo, donde las consultas se distribuyen automáticamente entre varios procesos o nodos? Si es así, seleccione una opción que admita el escalado horizontal de consultas.
¿Prefiere usar un almacén de datos relacional? Si lo hace, restrinja las opciones a las que tienen un modelo de base de datos relacional. Sin embargo, algunos almacenes no rerelationales admiten la sintaxis SQL para realizar consultas y se pueden usar herramientas como PolyBase para consultar almacenes de datos no rerelationales.
¿Recopila datos de series temporales? ¿Se usan datos que solo se anexan?

Fabric OneLake admite varios motores analíticos, incluidos Analysis Services, T-SQL y Apache Spark. Esta compatibilidad hace que sea adecuado para diversas necesidades de procesamiento y consulta de datos.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Funcionalidades generales

Capacidad	Base de Datos SQL	Grupo de SQL de Azure Synapse Analytics	Grupo de Spark de Azure Synapse Analytics	Explorador de datos de Azure	Apache HBase o Apache Phoenix en HDInsight	Hive LLAP en HDInsight	Servicios de Análisis	Azure Cosmos DB	Tela
¿Es un servicio administrado?	Sí	Sí	Sí	Sí	Sí ¹	Sí ¹	Sí	Sí	Sí
Modelo de la base de datos principal	Relacional (formato de almacén de columnas al usar índices de almacén de columnas)	Tablas relacionales con almacenamiento de columnas	Almacenamiento de columnas anchas	Relacional (almacenamiento en columnas), telemetría y almacenamiento de series temporales	Almacenamiento de columnas anchas	Hive o en memoria interna	Modelos semánticos tabulares	Almacenamiento de documentos, almacenamiento de grafos, almacenamiento clave-valor, almacenamiento de columnas anchas	Lago de datos unificado, relacional, telemetría, serie temporal, almacén de documentos, grafo, almacén de clave-valor
Compatibilidad con lenguaje SQL	Sí	Sí	Sí	Sí	Sí (mediante el controlador de conectividad de base de datos java de Apache Phoenix )	Sí	No	Sí	Sí
Optimizado para la capa de servicio rápido	Sí ²	Sí ³	Sí	Sí	Sí	Sí	No	Sí	Sí

[1] Con configuración y escalado manuales.

[2] Mediante tablas optimizadas para memoria y hash o índices no agrupados en clúster.

[3] Se admite como una salida de Azure Stream Analytics.

Funcionalidades de escalabilidad

Capacidad	Base de Datos SQL	Grupo de SQL de Azure Synapse Analytics	Grupo de Spark de Azure Synapse Analytics	Explorador de datos de Azure	Apache HBase o Apache Phoenix en HDInsight	Hive LLAP en HDInsight	Servicios de Análisis	Azure Cosmos DB	Tela
Servidores regionales redundantes para lograr alta disponibilidad	Sí	No	No	Sí	Sí	No	Sí	Sí	Sí
Admite el escalado horizontal de consultas	No	Sí	Sí	Sí	Sí	Sí	Sí	Sí	Sí
Escalabilidad dinámica (escalado hacia arriba)	Sí	Sí	Sí	Sí	No	No	Sí	Sí	Sí
Admite el almacenamiento en caché en memoria de datos	Sí	Sí	Sí	Sí	No	Sí	Sí	No	Sí

Funcionalidades de seguridad

Capacidad	Base de Datos SQL	Azure Synapse Analytics	Explorador de datos de Azure	Apache HBase o Apache Phoenix en HDInsight	Hive LLAP en HDInsight	Servicios de Análisis	Azure Cosmos DB	Tela
Autenticación	SQL o Microsoft Entra ID	SQL o Microsoft Entra ID	Microsoft Entra ID	Local o Microsoft Entra ID ¹	Local o Microsoft Entra ID ¹	Microsoft Entra ID	Usuarios de base de datos o identidad de Microsoft Entra mediante la gestión de identidades y acceso (control de acceso)	Microsoft Entra ID
Cifrado de datos en reposo	Sí ²	Sí ²	Sí	Sí ¹	Sí ¹	Sí	Sí	Sí
Seguridad a nivel de fila	Sí	Sí ³	Sí	Sí ¹	Sí ¹	Sí	No	Sí
Admite cortafuegos	Sí	Sí	Sí	Sí ⁴	Sí ⁴	Sí	Sí	Sí
Enmascaramiento de datos dinámicos	Sí	Sí	Sí	Sí ¹	Sí	No	No	Sí

[1] Requiere que use un clúster de HDInsight unido a un dominio.

[2] Requiere que use el cifrado de datos transparente para cifrar y descifrar los datos en reposo.

[3] Solo predicados de filtro. Para más información, consulte Seguridad de nivel de fila.

[4] Cuando se usa en una instancia de Azure Virtual Network. Para más información, consulte Extensión de HDInsight mediante una red virtual de Azure.

Compartir a través de

Elección de un almacén de datos analíticos en Azure

Elección de un almacén de datos analíticos

Principales criterios de selección

Matriz de funcionalidades

Funcionalidades generales

Funcionalidades de escalabilidad

Funcionalidades de seguridad

Pasos siguientes

Recursos relacionados

Comentarios

Recursos adicionales