Compartir a través de


Optimización y almacenamiento en caché del conjunto de datos

Los paneles de IA/BI son valiosos análisis de datos y herramientas de toma de decisiones, y los tiempos de carga eficientes pueden mejorar significativamente la experiencia del usuario. En este artículo se explica cómo el almacenamiento en caché y las optimizaciones de conjuntos de datos hacen que los paneles sean más eficaces y eficientes.

Rendimiento de las consultas

Puede inspeccionar las consultas y su rendimiento en el historial de consultas del área de trabajo. El historial de consultas muestra consultas SQL realizadas mediante almacenes de SQL. Haga clic en Icono Historial Historial de consultas en la barra lateral para ver el historial de consultas. Consulte historial de consultas.

En el caso de los conjuntos de datos de panel, Azure Databricks aplica optimizaciones de rendimiento en función del tamaño del resultado del conjunto de datos.

Optimizaciones de conjunto de datos

Los conjuntos de datos del panel de AI/BI incluyen las siguientes optimizaciones de rendimiento:

  • Si el tamaño del resultado del conjunto de datos es pequeño (menos de 64 000 filas o 10 MB, lo que sea menor), el resultado del conjunto de datos se extrae al cliente y el filtrado y la agregación específicos de la visualización se realizan en el cliente. El filtrado y la agregación de datos para conjuntos de datos pequeños es muy rápido y garantizar que el conjunto de datos sea pequeño puede ayudarte a optimizar el rendimiento del panel. Con conjuntos de datos pequeños, solo aparece la consulta del conjunto de datos en el historial de consultas.
  • Si el tamaño del resultado del conjunto de datos es grande (mayor o igual que 64 000 filas o más de 10 MB), el texto de la consulta del conjunto de datos se encapsula en una cláusula SQL WITH y el filtrado y la agregación específicos de la visualización se realiza en una consulta en el back-end en lugar de en el cliente. Con conjuntos de datos grandes, la consulta de visualización aparece en el historial de consultas.
  • Para las consultas de visualización enviadas al backend, se combinan consultas de visualización independientes en el mismo conjunto de datos que comparten las mismas cláusulas de GROUP BY y predicados de filtro en una sola consulta para su procesamiento. En este caso, los usuarios pueden ver una consulta combinada en el historial de consultas que captura los resultados de varias visualizaciones.

Almacenamiento en caché y actualización de datos

Los paneles mantienen una caché de resultados de 24 horas para optimizar los tiempos de carga iniciales, funcionando con el máximo esfuerzo. Esto significa que, aunque el sistema siempre intenta usar los resultados históricos de la consulta vinculados a las credenciales del panel para mejorar el rendimiento, hay algunos casos en los que los resultados almacenados en caché no se pueden crear ni mantener.

En la tabla siguiente se explica cómo el almacenamiento en caché varía según el estado del panel y las credenciales:

Tipo de panel Tipo de almacenamiento en caché
Panel publicado con credenciales insertadas Caché compartida. Todos los espectadores ven los mismos resultados.
Borrador de panel o panel publicado sin credenciales Insertadas Por caché de usuario. Los visores ven los resultados en función de sus permisos de datos.

Los paneles de control utilizan automáticamente los resultados de las consultas almacenados en caché si los datos subyacentes permanecen inalterados tras la última consulta o si los resultados se recuperaron hace menos de 24 horas. Si existen resultados obsoletos y se aplican parámetros al panel, las consultas se volverán a ejecutar a menos que se usaran los mismos parámetros en las últimas 24 horas. Del mismo modo, la aplicación de filtros a conjuntos de datos que superen 64 000 filas solicita que las consultas se vuelvan a ejecutar a menos que los mismos filtros se aplicaran anteriormente en las últimas 24 horas.

Consultas programadas

Agregar una programación a un panel publicado con credenciales insertadas puede acelerar significativamente el proceso de carga inicial para todos los visores de paneles.

Para cada actualización programada del panel, se produce lo siguiente:

  • Toda la lógica SQL que define los conjuntos de datos se ejecuta en el intervalo de tiempo designado.
  • Los resultados rellenan la caché de resultados de la consulta y ayudan a mejorar el tiempo de carga del panel inicial.