Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En una arquitectura de macrodatos , a menudo es necesario un almacén de datos analíticos que sirva los datos procesados en un formato estructurado que se pueda consultar mediante herramientas analíticas. Los almacenes de datos analíticos que admiten la consulta de datos de ruta de acceso activa y de ruta de acceso en frío se conocen colectivamente como capa de servicio o almacenamiento de servicios de datos.
La capa de presentación controla los datos procesados de la ruta rápida y la ruta fría. En la arquitectura lambda, la capa de servicio se subdivide en dos capas. La capa de servicio de velocidad contiene los datos procesados incrementalmente. La capa de servicio por lotes contiene la salida procesada por lotes. La capa de servicio requiere una compatibilidad sólida con las lecturas aleatorias que tienen baja latencia. El almacenamiento de datos para la capa de velocidad también debe admitir escrituras aleatorias porque la carga por lotes de datos en este almacén presenta retrasos no deseados. Como alternativa, el almacenamiento de datos para la capa de lote debe admitir escrituras por lotes, no escrituras aleatorias.
No hay ninguna opción de administración de datos única para todas las tareas de almacenamiento de datos. Las distintas soluciones de administración de datos están optimizadas para tareas diferentes. La mayoría de las aplicaciones en la nube del mundo real y los procesos de macrodatos tienen varios requisitos de almacenamiento de datos y, a menudo, usan una combinación de soluciones de almacenamiento de datos.
Las soluciones analíticas modernas, como Microsoft Fabric, proporcionan una plataforma completa que integra varios servicios de datos y herramientas para satisfacer diversas necesidades analíticas. Fabric incluye OneLake, que es un lago de datos lógico y unificado para toda la organización. OneLake está diseñado para almacenar, administrar y proteger todos los datos de la organización en una sola ubicación. Esta flexibilidad permite a su organización abordar una amplia gama de requisitos de procesamiento y almacenamiento de datos.
Elección de un almacén de datos analíticos
Hay varias opciones para el almacenamiento de servicios de datos en Azure, con el fin de que pueda elegir la que más se ajuste a sus necesidades:
- Tejido
- Azure Synapse Analytics
- Grupos de Spark de Azure Synapse Analytics
- Azure Databricks
- Azure Data Explorer
- Azure SQL Database
- SQL Server en VM de Azure
- Apache HBase y Apache Phoenix en Azure HDInsight
- Procesamiento analítico de baja latencia de Apache Hive (LLAP) en Azure HDInsight
- Azure Analysis Services
- Azure Cosmos DB
Los siguientes modelos de base de datos están optimizados para diferentes tipos de tareas:
Las bases de datos key-value almacenan un único objeto serializado para cada valor de clave. Son adecuados para administrar grandes volúmenes de datos cuando la recuperación se basa en una clave específica, sin necesidad de consultar otras propiedades de elemento.
Las bases de datos de documentos son bases de datos clave-valor en las que los valores son documentos. En este contexto, un documento es una colección de campos y valores con nombre. Normalmente, la base de datos almacena los datos en un formato como XML, YAML, JSON o JSON binario, pero podría usar texto sin formato. Las bases de datos de documentos pueden consultar en campos que no son clave y definir índices secundarios para mejorar la eficacia de las consultas. Esta funcionalidad hace que una base de datos de documentos sea más adecuada para las aplicaciones que necesitan recuperar datos en función de criterios más complejos que el valor de la clave de documento. Por ejemplo, puede realizar consultas en campos como el de id. del producto, id. del cliente o nombre del cliente.
Bases de datos orientadas a columnas son almacenes de datos clave/valor que almacenan cada columna por separado en el disco. Una base de datos de almacén de columnas ancha es un tipo de base de datos de almacén de columnas que almacena familias de columnas, no solo columnas únicas. Por ejemplo, una base de datos del censo podría tener una familia de columnas independiente para cada uno de los siguientes elementos:
Primero, medio y apellido de una persona
Dirección de esa persona
Información de perfil de esa persona, como su fecha de nacimiento o género
La base de datos puede almacenar cada familia de columnas en una partición independiente, al tiempo que mantiene todos los datos de una persona relacionados con la misma clave. Una aplicación puede leer una sola familia de columnas sin examinar todos los datos de una entidad.
Las bases de datos de grafos almacenan información como una colección de objetos y relaciones. Una base de datos de grafos puede realizar de manera eficaz consultas que atraviesan la red de objetos y las relaciones entre ellos. Por ejemplo, los objetos podrían ser los empleados en una base de datos de recursos humanos y puede desear facilitar consultas como "buscar todos los empleados que trabajan directa o indirectamente para Scott".
Las bases de datos de telemetría y de serie temporal son una colección de objetos que solo se anexan. Las bases de datos de telemetría indexan de forma eficaz los datos en varios almacenes de columnas y estructuras en memoria. Esta funcionalidad las convierte en la opción óptima para almacenar y analizar grandes cantidades de datos de telemetría y series temporales.
Fabric admite varios modelos de base de datos, como clave-valor, documento, almacén de columnas, grafos y bases de datos de telemetría. Esta flexibilidad garantiza la escalabilidad de una amplia gama de tareas analíticas.
Principales criterios de selección
Para refinar el proceso de selección, tenga en cuenta los siguientes criterios:
¿Necesita almacenamiento de servicios que pueda servir como ruta de acceso activa para los datos? En caso afirmativo, limite las opciones a las que están optimizadas para una capa de servicio rápido.
¿Necesita compatibilidad con el procesamiento paralelo masivo, donde las consultas se distribuyen automáticamente entre varios procesos o nodos? Si es así, seleccione una opción que admita el escalado horizontal de consultas.
¿Prefiere usar un almacén de datos relacional? Si lo hace, restrinja las opciones a las que tienen un modelo de base de datos relacional. Sin embargo, algunos almacenes no rerelationales admiten la sintaxis SQL para realizar consultas y se pueden usar herramientas como PolyBase para consultar almacenes de datos no rerelationales.
¿Recopila datos de series temporales? ¿Se usan datos que solo se anexan?
Fabric OneLake admite varios motores analíticos, incluidos Analysis Services, T-SQL y Apache Spark. Esta compatibilidad hace que sea adecuado para diversas necesidades de procesamiento y consulta de datos.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Funcionalidades generales
Capacidad | Base de Datos SQL | Grupo de SQL de Azure Synapse Analytics | Grupo de Spark de Azure Synapse Analytics | Explorador de datos de Azure | Apache HBase o Apache Phoenix en HDInsight | Hive LLAP en HDInsight | Servicios de Análisis | Azure Cosmos DB | Tela |
---|---|---|---|---|---|---|---|---|---|
¿Es un servicio administrado? | Sí | Sí | Sí | Sí | Sí 1 | Sí 1 | Sí | Sí | Sí |
Modelo de la base de datos principal | Relacional (formato de almacén de columnas al usar índices de almacén de columnas) | Tablas relacionales con almacenamiento de columnas | Almacenamiento de columnas anchas | Relacional (almacenamiento en columnas), telemetría y almacenamiento de series temporales | Almacenamiento de columnas anchas | Hive o en memoria interna | Modelos semánticos tabulares | Almacenamiento de documentos, almacenamiento de grafos, almacenamiento clave-valor, almacenamiento de columnas anchas | Lago de datos unificado, relacional, telemetría, serie temporal, almacén de documentos, grafo, almacén de clave-valor |
Compatibilidad con lenguaje SQL | Sí | Sí | Sí | Sí | Sí (mediante el controlador de conectividad de base de datos java de Apache Phoenix ) | Sí | No | Sí | Sí |
Optimizado para la capa de servicio rápido | Sí 2 | Sí 3 | Sí | Sí | Sí | Sí | No | Sí | Sí |
[1] Con configuración y escalado manuales.
[2] Mediante tablas optimizadas para memoria y hash o índices no agrupados en clúster.
[3] Se admite como una salida de Azure Stream Analytics.
Funcionalidades de escalabilidad
Capacidad | Base de Datos SQL | Grupo de SQL de Azure Synapse Analytics | Grupo de Spark de Azure Synapse Analytics | Explorador de datos de Azure | Apache HBase o Apache Phoenix en HDInsight | Hive LLAP en HDInsight | Servicios de Análisis | Azure Cosmos DB | Tela |
---|---|---|---|---|---|---|---|---|---|
Servidores regionales redundantes para lograr alta disponibilidad | Sí | No | No | Sí | Sí | No | Sí | Sí | Sí |
Admite el escalado horizontal de consultas | No | Sí | Sí | Sí | Sí | Sí | Sí | Sí | Sí |
Escalabilidad dinámica (escalado hacia arriba) | Sí | Sí | Sí | Sí | No | No | Sí | Sí | Sí |
Admite el almacenamiento en caché en memoria de datos | Sí | Sí | Sí | Sí | No | Sí | Sí | No | Sí |
Funcionalidades de seguridad
Capacidad | Base de Datos SQL | Azure Synapse Analytics | Explorador de datos de Azure | Apache HBase o Apache Phoenix en HDInsight | Hive LLAP en HDInsight | Servicios de Análisis | Azure Cosmos DB | Tela |
---|---|---|---|---|---|---|---|---|
Autenticación | SQL o Microsoft Entra ID | SQL o Microsoft Entra ID | Microsoft Entra ID | Local o Microsoft Entra ID 1 | Local o Microsoft Entra ID 1 | Microsoft Entra ID | Usuarios de base de datos o identidad de Microsoft Entra mediante la gestión de identidades y acceso (control de acceso) | Microsoft Entra ID |
Cifrado de datos en reposo | Sí 2 | Sí 2 | Sí | Sí 1 | Sí 1 | Sí | Sí | Sí |
Seguridad a nivel de fila | Sí | Sí 3 | Sí | Sí 1 | Sí 1 | Sí | No | Sí |
Admite cortafuegos | Sí | Sí | Sí | Sí 4 | Sí 4 | Sí | Sí | Sí |
Enmascaramiento de datos dinámicos | Sí | Sí | Sí | Sí 1 | Sí | No | No | Sí |
[1] Requiere que use un clúster de HDInsight unido a un dominio.
[2] Requiere que use el cifrado de datos transparente para cifrar y descifrar los datos en reposo.
[3] Solo predicados de filtro. Para más información, consulte Seguridad de nivel de fila.
[4] Cuando se usa en una instancia de Azure Virtual Network. Para más información, consulte Extensión de HDInsight mediante una red virtual de Azure.
Pasos siguientes
- Análisis de datos en un almacenamiento de datos relacional
- Creación de una base de datos única en SQL Database
- Creación de un área de trabajo de Azure Databricks
- Creación de un clúster de Apache Spark en HDInsight mediante Azure Portal
- Inicio rápido: Creación de un área de trabajo de Azure Synapse Analytics (versión preliminar)
- Exploración de los servicios de datos de Azure para el análisis moderno
- Exploración de los servicios de análisis y bases de datos de Azure
- Consulta de Azure Cosmos DB mediante la API para NoSQL