Hoja de guía rápida de preparación de datos

El rendimiento de BI de gama alta depende de la forma en que se preparen y entreguen los datos de forma eficaz desde Lakehouse. Al adoptar patrones arquitectónicos, aplicar una estructura semántica y usar optimizaciones dirigidas, puede reducir la complejidad de las consultas, mejorar la capacidad de respuesta del panel y reducir los costos de proceso.

En la tabla siguiente se resumen los procedimientos recomendados, su impacto esperado, la documentación relacionada y los elementos de acción asociados. Este contenido está diseñado para ingenieros de datos, desarrolladores de BI y autores de paneles que diseñan, optimizan y mantienen cargas de trabajo de análisis en Lakehouse.

Preparación de datos

Procedimiento recomendado	Impacto	Docs	Elementos de acción
Adoptar una arquitectura de medallón	Acelera la migración de datos sin procesar a productos de datos confiables y listos para su uso para facilitar el consumo.	Arquitectura de Medallion Glosario de arquitectura de Medallion Conceptos de almacenamiento de datos	Revisar e implementar capas de medallón
Uso de clústeres líquidos	Mejora el rendimiento de las consultas con la omisión de archivos y datos.	Agrupación en clústeres líquidos	Aplicar a tablas grandes con patrones de filtro
Uso de tablas administradas	Azure Databricks rige automáticamente y optimiza la capa de almacenamiento y el rendimiento de las consultas.	Tablas administradas de Unity Catalog en Azure Databricks	Crea tablas administradas para tus datos
Uso manual de la optimización predictiva o optimización de tablas	Permite mejorar el rendimiento de las consultas mediante la optimización de los tamaños y el diseño de los archivos, la eliminación de archivos antiguos y la actualización de estadísticas.	Optimización predictiva Optimización del diseño de archivo Analizar las métricas de almacenamiento de computación de tabla	Habilitar para tablas de producción o programar optimización regular y analizar tablas después de cambios en los datos
Modelar datos en un esquema en estrella	Facilita la consulta y el consumo de los datos.	Glosario de esquema de estrella Cinco pasos sencillos para implementar un esquema de estrella	Diseño de tablas de hechos y dimensiones
Evitar tipos de datos anchos y columnas de alta cardinalidad	Optimiza el tamaño del modelo de datos y el consumo de memoria y mejora la eficacia de las consultas.	Guía de optimización de cargas de trabajo de datos	Revisión de tipos de datos y cardinalidad
Declarar claves principales y externas (con RELY)	Optimiza las consultas mediante la eliminación de combinaciones y agregaciones innecesarias.	Optimización de consultas con restricciones	Definición de claves en tablas de hechos y dimensiones
Uso de columnas generadas automáticamente	Reduce la necesidad de calcular valores en el momento de la consulta.	Columnas generadas	Identificación de campos calculados con frecuencia
Uso de vistas materializadas y tablas persistentes	Mejora el rendimiento mediante la agregación previa de datos para las consultas más comunes y de uso intensivo de recursos.	Tablas Vistas materializadas Uso de vistas materializadas en Databricks SQL	Creación de vistas agregadas para consultas comunes

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-02-21

Compartir a través de

Hoja de guía rápida de preparación de datos

Preparación de datos

Comentarios

Recursos adicionales