Compartir a través de


Tablas de Lakehouse y Delta Lake

Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos para almacenar, administrar y analizar datos estructurados y no estructurados en una sola ubicación. Para lograr un acceso sin problemas a los datos en todos los motores de proceso de Microsoft Fabric, Delta Lake se elige como formato de tabla unificado.

Al guardar datos en un lakehouse mediante funcionalidades como Cargar en tabla o métodos descritos en Opciones para introducir datos en Fabric Lakehouse, todos los datos se guardan en formato Delta.

Para obtener una introducción más completa al formato de tabla de Delta Lake, siga los vínculos de contenido relacionado al final de este artículo.

Macrodatos, Apache Spark y formatos de tabla heredados

Microsoft Fabric Runtime para Apache Spark usa la misma base que Azure Synapse Analytics Runtime para Apache Spark, pero contiene diferencias clave para proporcionar un comportamiento más simplificado en todos los motores del servicio Microsoft Fabric. En Microsoft Fabric, las características de rendimiento clave están activadas de forma predeterminada. Los usuarios avanzados de Apache Spark pueden revertir las configuraciones a valores anteriores para alinearse mejor con escenarios específicos.

Microsoft Fabric Lakehouse y el motor de Apache Spark admiten todos los tipos de tabla, tanto administrados como no administrados. Esto incluye vistas y formatos normales de tabla de Hive no delta. Las tablas definidas mediante PARQUET, CSV, AVRO, JSON y cualquier formato de archivo compatible con Apache Hive funcionan según lo previsto.

La experiencia de la interfaz de usuario del explorador de Lakehouse varía en función del tipo de tabla. Actualmente, el explorador de Lakehouse solo representa objetos de tabla.

Diferencias de configuración con Azure Synapse Analytics

La tabla siguiente contiene las diferencias de configuración entre Azure Synapse Analytics y Microsoft Fabric Runtime para Apache Spark.

Configuración de Apache Spark Valor de Microsoft Fabric Valor de Azure Synapse Analytics Notas
spark.sql.sources.default delta parquet Formato de tabla predeterminado
spark.sql.parquet.vorder.default cierto N/D Escritor de orden V
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/D Límite de tamaño de página del diccionario para orden V
spark.databricks.delta.optimizeWrite.enabled cierto unset (falso) Optimizar escritura

Detección automática de tablas

El explorador de Lakehouse proporciona una vista de árbol de los objetos del elemento Microsoft Fabric Lakehouse. Tiene la capacidad clave de descubrir y mostrar tablas que están descritas en el repositorio de metadatos y en el almacenamiento de OneLake. Las referencias de tabla se muestran en la sección Tables de la interfaz de usuario del explorador de Lakehouse. La detección automática también se aplica a las tablas definidas a través de accesos directos de OneLake.

Tablas en accesos directos

Microsoft Fabric Lakehouse admite tablas definidas a través de accesos directos de OneLake para proporcionar la máxima compatibilidad y sin movimiento de datos. En la tabla siguiente se incluyen los procedimientos recomendados de escenario para cada tipo de elemento al usarlo en métodos abreviados.

Destino de acceso directo Dónde crear el acceso directo Procedimiento recomendado
Tabla de Delta Lake Sección Tables Si hay varias tablas presentes en el destino, cree un acceso directo por tabla.
Carpetas con archivos Sección Files Use Apache Spark para usar el destino directamente mediante rutas de acceso relativas. Cargue los datos en tablas delta nativas de Lakehouse para obtener el máximo rendimiento.
Tablas heredadas de Apache Hive Sección Files Use Apache Spark para usar el destino directamente mediante rutas de acceso relativas o cree una referencia de catálogo de metadatos mediante la sintaxis CREATE EXTERNAL TABLE. Cargue los datos en tablas delta nativas de Lakehouse para obtener el máximo rendimiento.

Cargar en la tabla

Microsoft Fabric Lakehouse proporciona una interfaz de usuario cómoda y productiva para simplificar la carga de datos en tablas Delta. La función Cargar en tabla ofrece una experiencia visual para cargar formatos de archivo comunes en Delta, mejorando la productividad analítica de todos los roles. Para más información sobre la característica Cargar en tabla, lea la documentación de referencia de las tablas de Load to Delta Lake .

Optimización de tablas de Delta Lake

Mantener las tablas en forma para el amplio ámbito de los escenarios de análisis no es una tarea menor. Microsoft Fabric Lakehouse permite de forma proactiva los parámetros importantes para minimizar los problemas comunes asociados a las tablas de macrodatos, como la compactación y los tamaños de archivo pequeños, y para maximizar el rendimiento de las consultas. Aun así, hay muchos escenarios en los que esos parámetros necesitan cambios. En el artículo Optimización de tablas y orden V de Delta Lake se describen algunos escenarios clave y se proporciona una guía detallada sobre cómo mantener de forma eficaz las tablas Delta para obtener el máximo rendimiento.