Compartir a través de


Hoja de guía rápida de preparación de datos

El rendimiento de BI de gama alta depende de la forma en que se preparen y entreguen los datos de forma eficaz desde Lakehouse. Al adoptar patrones arquitectónicos, aplicar una estructura semántica y usar optimizaciones dirigidas, puede reducir la complejidad de las consultas, mejorar la capacidad de respuesta del panel y reducir los costos de proceso.

En la tabla siguiente se resumen los procedimientos recomendados, su impacto esperado, la documentación relacionada y los elementos de acción asociados. Este contenido está diseñado para ingenieros de datos, desarrolladores de BI y autores de paneles que diseñan, optimizan y mantienen cargas de trabajo de análisis en Lakehouse.

Preparación de datos

Procedimiento recomendado Impacto Docs Elementos de acción
Adoptar una arquitectura de medallón Acelera la migración de datos sin procesar a productos de datos confiables y listos para su uso para facilitar el consumo. Revisar e implementar capas de medallón
Uso de clústeres líquidos Mejora el rendimiento de las consultas con la omisión de archivos y datos. Aplicar a tablas grandes con patrones de filtro
Uso de tablas administradas Azure Databricks rige automáticamente y optimiza la capa de almacenamiento y el rendimiento de las consultas. Crea tablas administradas para tus datos
Uso manual de la optimización predictiva o optimización de tablas Permite mejorar el rendimiento de las consultas mediante la optimización de los tamaños y el diseño de los archivos, la eliminación de archivos antiguos y la actualización de estadísticas. Habilitar para tablas de producción o programar optimización regular y analizar tablas después de cambios en los datos
Modelar datos en un esquema en estrella Facilita la consulta y el consumo de los datos. Diseño de tablas de hechos y dimensiones
Evitar tipos de datos anchos y columnas de alta cardinalidad Optimiza el tamaño del modelo de datos y el consumo de memoria y mejora la eficacia de las consultas. Revisión de tipos de datos y cardinalidad
Declarar claves principales y externas (con RELY) Optimiza las consultas mediante la eliminación de combinaciones y agregaciones innecesarias. Definición de claves en tablas de hechos y dimensiones
Uso de columnas generadas automáticamente Reduce la necesidad de calcular valores en el momento de la consulta. Identificación de campos calculados con frecuencia
Uso de vistas materializadas y tablas persistentes Mejora el rendimiento mediante la agregación previa de datos para las consultas más comunes y de uso intensivo de recursos. Creación de vistas agregadas para consultas comunes