Compartir a través de


Almacenamiento de datos en Microsoft Fabric

Microsoft Fabric proporciona varias opciones de almacenamiento diseñadas para admitir análisis, procesamiento en tiempo real e informes operativos dentro de una plataforma unificada. Elegir la experiencia de almacenamiento adecuada le ayuda a optimizar el rendimiento, administrar los costos y alinear la arquitectura de datos con los requisitos de carga de trabajo. Independientemente de su origen o método de preparación, todos los datos llegan a una base de almacenamiento unificada denominada OneLake.

En este artículo se explica cómo se almacenan los datos en Fabric y se describen las experiencias de almacenamiento principales disponibles. En las secciones siguientes se tratan:

  • OneLake : el lago de datos lógico unificado que respalda todas las cargas de trabajo de Fabric.
  • Lakehouse : almacene y analice datos estructurados y no estructurados mediante tablas Delta.
  • Almacén de datos – Guarde datos relacionales optimizados para análisis SQL de alto rendimiento.
  • Eventhouse : almacene y consulte datos de eventos de gran volumen y en tiempo real.
  • Bases de datos y otras experiencias de almacenamiento : comprenda las funcionalidades de almacenamiento adicionales disponibles en Fabric.

Use esta información general para comprender cómo funciona cada opción de almacenamiento y elegir la mejor opción para los escenarios analíticos y operativos.

Lakehouse para el almacenamiento de datos flexible

A Lakehouse es un elemento de almacenamiento principal de Fabric que usa OneLake para almacenar datos en formatos de archivo y tabla. Una instancia de Lakehouse representa una estructura de carpetas mantenida en OneLake e incluye una interfaz SQL. Un Lakehouse almacena datos como archivos Delta Parquet. Puede organizar archivos sin procesar, como archivos CSV o imágenes en carpetas, y puede crear tablas delta administradas para datos estructurados. Este modelo admite datos estructurados y no estructurados en el mismo entorno.

Fabric aprovisiona automáticamente un punto de conexión de SQL Analytics para cada instancia de Lakehouse. Usted y las herramientas como Power BI pueden consultar tablas delta mediante Transact-SQL, como si consultara una base de datos relacional. Lakehouse combina la escalabilidad y flexibilidad de un lago de datos con funcionalidades principales de almacenamiento, incluida la consulta directa de tablas y la administración de esquemas.

Almacenamiento para análisis estructurados

Un almacenamiento en Fabric proporciona una experiencia tradicional de ALMACENAMIENTO de datos SQL (con tablas, vistas SQL, procedimientos almacenados, etc.) en el almacenamiento unificado de Fabric. Al crear un almacén, almacena los datos en OneLake en formato Delta como un conjunto organizado de tablas Delta con una interfaz SQL ANSI en la parte superior. Warehouse proporciona un rendimiento de proceso dedicado y optimizado para consultas SQL complejas y cargas de trabajo de estilo BI. Admite características como indexación, procedimientos almacenados y transacciones ACID sólidas en tablas.

Warehouse y Lakehouse comparten el mismo almacenamiento subyacente de OneLake. Puede integrarlos mediante accesos directos u otras características de interoperabilidad cuando sea necesario. Sin embargo, normalmente los mantiene separados para distintos casos de uso. El Warehouse es ideal para datos estructurados y relacionales de esquema de estrella que necesita segmentar y analizar con SQL. Puede usar canalizaciones de Fabric para cargar datos en el almacenamiento. Power BI puede conectarse mediante Direct Lake o DirectQuery para recuperar datos sin importar.

Guía de decisión: Lakehouse frente a Warehouse

Los almacenes y lakehouses sirven a roles distintos pero complementarios.

  • Los almacenes están optimizados para el almacenamiento de datos estructurados y a escala empresarial con compatibilidad completa con T-SQL, transacciones ACID y aplicación de esquemas sólida, ideal para BI e informes. Elija un almacén para cargas de trabajo de SQL controladas y de alto rendimiento y una instancia de Lakehouse para el procesamiento de macrodatos, el análisis exploratorio y los escenarios que implican formatos de datos variados o integración externa de lago.

  • Lakehouses ofrece almacenamiento flexible y escalable para datos estructurados y no estructurados, que admiten la ingeniería de datos basada en Spark y el análisis sql de solo lectura a través de puntos de conexión automáticos.

Muchas organizaciones se benefician del uso conjunto de: Lakehouses para la ingesta y la transformación, y Almacenes para el análisis y los informes refinados. Para más información, consulte la guía de decisión.

Bases de datos espejo para la replicación casi en tiempo real

Una base de datos reflejada en Fabric es una copia replicada continuamente de una base de datos operativa externa, como Azure SQL Database, SQL Server, Azure Cosmos DB o Snowflake. Fabric almacena datos reflejados en OneLake en formato Delta Lake.

El reflejo sincroniza instantáneamente los cambios de origen en Fabric casi en tiempo real sin necesidad de las tradicionales canalizaciones de extracción, transformación y carga. Después de la replicación, los datos se vuelven inmediatamente consultables a través de endpoints SQL y están disponibles en las cargas de trabajo de Fabric, incluidos Power BI, los cuadernos de Spark y los pipelines.

Esta arquitectura admite escenarios híbridos de procesamiento transaccional y analítico (HTAP), donde se analizan los datos operativos al tiempo que se mantiene la integridad del sistema de origen.

Centro de eventos para análisis de eventos en tiempo real

Eventhouse proporciona un entorno de análisis en tiempo real escalable diseñado para ingerir, almacenar y analizar grandes volúmenes de datos de eventos. Es el motor fundamental para las cargas de trabajo de Real-Time Intelligence.

Un centro de eventos hospeda una o varias bases de datos del lenguaje de consulta kusto basadas en el motor de Kusto. Estas bases de datos indexarán y particionarán automáticamente los datos por tiempo de ingesta. Los datos se consultan mediante el lenguaje de consulta kusto.

Eventhouse es adecuado para la telemetría, los registros de seguridad, los registros de cumplimiento y las transacciones financieras en las que se requieren análisis de baja latencia y ingesta a gran escala.

Base de datos SQL para cargas de trabajo transaccionales

Las bases de datos SQL de Fabric admiten cargas de trabajo de análisis transaccionales y operativos. Proporcionan una experiencia de base de datos relacional totalmente administrada con compatibilidad con T-SQL, incluida la definición de datos (DDL), la manipulación (DML) y las funcionalidades de consulta (DQL). Puede usar procedimientos almacenados, vistas y funciones para crear soluciones transaccionales y analíticas.

Las bases de datos SQL usan un servicio de creación de reflejo automático para replicar tablas transaccionales en OneLake para el análisis. Al crear una base de datos SQL, Fabric inicia un motor de replicación que captura las operaciones de inserción, actualización y eliminación a través de la fuente de cambios del motor de SQL y escribe esos cambios en OneLake como archivos Delta Parquet. La replicación se produce casi en tiempo real y se inicia automáticamente. Todas las tablas admitidas se reflejan de forma predeterminada. Este comportamiento garantiza que la copia de OneLake permanezca sincronizada con la base de datos operativa.

Las bases de datos SQL se integran con otras soluciones de Fabric, como Power BI, notebooks, funciones de datos de usuario, canalizaciones y herramientas externas a través del protocolo TDS. Esta integración le permite crear soluciones de un extremo a otro, desde la ingesta de datos y la transformación hasta la visualización y los informes, sin salir del entorno de Fabric. La plataforma controla automáticamente la indexación y la optimización del rendimiento, por lo que no es necesario ajustar ni administrar manualmente la infraestructura.

Cosmos DB para cargas de trabajo NoSQL distribuidas

Cosmos DB en Microsoft Fabric es una base de datos NoSQL totalmente administrada y distribuida diseñada para aplicaciones de alto rendimiento y distribuidas globalmente. Admite modelos de esquema flexibles y datos JSON semiestructurados.

Cosmos DB se refleja automáticamente en OneLake en formato Delta para admitir el análisis sin afectar al rendimiento operativo. La replicación es continua y casi en tiempo real y no requiere ninguna configuración manual.

Después de la replicación, los datos son accesibles a través de un punto de conexión de SQL Analytics. Puede consultar datos mediante Transact-SQL, crear vistas e integrarlos con Power BI, cuadernos y canalizaciones.

El punto de conexión de SQL Analytics proporciona una interfaz de solo lectura a los datos reflejados, lo que garantiza que las consultas analíticas no interfieren con las operaciones transaccionales. Esta arquitectura admite el procesamiento transaccional y analítico híbrido (HTAP), por lo que puede unificar cargas de trabajo operativas y analíticas dentro de una sola plataforma.

Modelo semántico para la lógica de negocios y los informes

Los modelos semánticos proporcionan la capa estructurada y mantenida que define la lógica de negocios, las medidas, las jerarquías, las relaciones y los metadatos sobre los datos sin procesar en Microsoft Fabric. Hacen que los datos sean interpretables y reutilizables en toda la plataforma para experiencias de análisis.

Los modelos semánticos de Fabric están estrechamente integrados con el modelo de capacidad y la estructura del área de trabajo de la plataforma. Los modelos semánticos admiten tres modos de consulta: Importación, DirectQuery y Direct Lake. Cada modo ofrece diferentes ventajas entre el rendimiento, la actualización y la escalabilidad:

  • El modo de importación copia los datos del origen en el modelo semántico durante las actualizaciones programadas o manuales. Este modo ofrece el rendimiento de consulta más rápido porque Power BI funciona en datos en memoria, pero presenta latencia entre las actualizaciones de origen y la visibilidad del informe. El modo de importación es ideal para paneles de alto rendimiento en los que los datos en tiempo real no son críticos.

  • El modo DirectQuery envía consultas directamente al sistema de origen en tiempo de ejecución sin almacenar datos en el modelo semántico. Este enfoque garantiza resultados actualizados, pero puede dar lugar a un rendimiento más lento en función de la capacidad de respuesta del sistema de origen. DirectQuery es adecuado para escenarios en los que la actualización de datos es más importante que la velocidad, como los informes operativos.

  • El modo Direct Lake permite a Power BI consultar las tablas delta almacenadas en OneLake directamente. Combina las características de rendimiento de Importación con la actualidad de DirectQuery. Evita la duplicación de datos y usa la arquitectura nativa del lago para análisis escalables casi en tiempo real. Direct Lake se recomienda para el análisis a gran escala en datos administrados por Fabric.

Los modelos semánticos también permiten la inteligencia artificial conversacional, la búsqueda semántica, los informes empresariales y el razonamiento entre dominios al reunir características avanzadas como Fabric Data Agents, Power BI Copilot, Ontologies y informes de Power BI. Los usuarios empresariales también pueden acceder a modelos semánticos a través de Excel, donde pueden explorar datos e información en una interfaz de tabla dinámica que use datos dinámicos del modelo semántico.

Guía de decisión: Elección del almacén de datos adecuado

Microsoft Fabric proporciona varias opciones de almacén de datos, cada una optimizada para cargas de trabajo específicas:

  • Lakehouse para la ingeniería de datos a gran escala y el almacenamiento en formato abierto, como Delta y Horizontal, con compatibilidad con motores Spark y SQL.
  • Almacén de datos para análisis relacionales estructurados con capacidades SQL de alto rendimiento e informes empresariales.
  • Eventhouse para la telemetría en tiempo real y el análisis de registros mediante el lenguaje de consulta Kusto.
  • Base de datos SQL para cargas de trabajo transaccionales y análisis operativos.
  • Cosmos DB para aplicaciones NoSQL distribuidas globalmente, aplicaciones multimodelo con acceso de baja latencia.

La selección del almacén adecuado depende de la estructura de datos, los requisitos de latencia, la complejidad de las consultas y las necesidades de integración. Para obtener más instrucciones, consulte Elección del almacén adecuado.