Tablas de Lakehouse y Delta Lake
Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos para almacenar, administrar y analizar datos estructurados y no estructurados en una sola ubicación. Para lograr un acceso sin problemas a los datos en todos los motores de proceso de Microsoft Fabric, Delta Lake se elige como formato de tabla unificado.
Guardar datos en Lakehouse mediante funcionalidades como Cargar en tablas o los métodos descritos en Opciones para obtener datos en Lakehouse de Fabric, todos los datos se guardan en formato Delta.
Para obtener una introducción más completa al formato de tabla de Delta Lake, siga los vínculos de la sección Pasos siguientes.
Macrodatos, Apache Spark y formatos de tabla heredados
Microsoft Fabric Runtime para Apache Spark usa la misma base que Azure Synapse Analytics Runtime para Apache Spark, pero contiene diferencias clave para proporcionar un comportamiento más simplificado en todos los motores del servicio Microsoft Fabric. En Microsoft Fabric, las características de rendimiento clave están activadas de forma predeterminada. Los usuarios avanzados de Apache Spark pueden revertir las configuraciones a valores anteriores para alinearse mejor con escenarios específicos.
Microsoft Fabric Lakehouse y el motor de Apache Spark admiten todos los tipos de tabla, tanto administrados como no administrados. Esto incluye vistas y formatos normales de tabla de Hive no delta. Las tablas definidas mediante PARQUET, CSV, AVRO, JSON y cualquier formato de archivo compatible con Apache Hive funcionan según lo previsto.
La experiencia de la interfaz de usuario del explorador de Lakehouse varía en función del tipo de tabla. Actualmente, el explorador de Lakehouse solo representa objetos de tabla.
Diferencias de configuración con Azure Synapse Analytics
La tabla siguiente contiene las diferencias de configuración entre Azure Synapse Analytics y Microsoft Fabric Runtime para Apache Spark.
Configuración de Apache Spark | Valor de Microsoft Fabric | Valor de Azure Synapse Analytics | Notas |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Formato de tabla predeterminado |
spark.sql.parquet.vorder.enabled | true | N/D | Escritor de orden V |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | N/D | Límite de tamaño de página del diccionario para orden V |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Optimizar escritura |
Detección automática de tablas
El explorador de Lakehouse proporciona una vista de árbol de los objetos del elemento Microsoft Fabric Lakehouse. Tiene la capacidad clave de descubrir y mostrar tablas que están descritas en el repositorio de metadatos y en el almacenamiento de OneLake. Las referencias de tabla se muestran en la sección Tables
de la interfaz de usuario del explorador de Lakehouse. La detección automática también se aplica a las tablas definidas a través de accesos directos de OneLake.
Tablas en accesos directos
Microsoft Fabric Lakehouse admite tablas definidas a través de accesos directos de OneLake, para proporcionar la máxima compatibilidad y sin movimiento de datos. La tabla siguiente contiene los procedimientos recomendados del escenario para cada tipo de elemento cuando se usa sobre accesos directos.
Destino de acceso directo | Dónde crear el acceso directo | Procedimiento recomendado |
---|---|---|
Tabla de Delta Lake | Tables sección |
Si hay varias tablas presentes en el destino, cree un acceso directo por tabla. |
Carpetas con archivos | Files sección |
Use Apache Spark para usar el destino directamente mediante rutas de acceso relativas. Cargue los datos en tablas Delta nativas de Lakehouse para obtener el máximo rendimiento. |
Tablas heredadas de Apache Hive | Files sección |
Use Apache Spark para usar el destino directamente mediante rutas de acceso relativas o cree una referencia de catálogo de metadatos mediante la sintaxis CREATE EXTERNAL TABLE . Cargue los datos en tablas Delta nativas de Lakehouse para obtener el máximo rendimiento. |
Cargar en tablas
Microsoft Fabric Lakehouse proporciona una interfaz de usuario cómoda y productiva para simplificar la carga de datos en tablas Delta. La característica Cargar en tablas permite que una experiencia visual cargue formatos de archivo comunes en Delta para aumentar la productividad analítica de todos los roles. Para obtener más información sobre la característica Cargar en tablas, consulte la documentación de referencia Cargar en tablas de Lakehouse.
Optimización de tablas de Delta Lake
Mantener las tablas en forma para el amplio ámbito de los escenarios de análisis no es una tarea menor. Microsoft Fabric Lakehouse habilita de forma proactiva los parámetros importantes para minimizar los problemas comunes asociados a las tablas de macrodatos, como la compactación y los archivos de pequeño tamaño, y para maximizar el rendimiento de las consultas. Aun así, hay muchos escenarios en los que esos parámetros necesitan cambios. En el artículo Optimización de tablas y orden V de Delta Lake se describen algunos escenarios clave y se proporciona una guía detallada sobre cómo mantener de forma eficaz las tablas Delta para obtener el máximo rendimiento.