Comparteix via


Optimización del rendimiento de las combinaciones en Azure Databricks

Con Azure Databricks puede crear combinaciones en las tablas por lotes o de streaming. Algunas uniones pueden ser costosas. Lo siguiente puede ayudarle a optimizar las combinaciones.

Para más información sobre las combinaciones, consulte Trabajar con combinaciones en Azure Databricks.

Proceso con Photon habilitado siempre selecciona el mejor tipo de combinación. Consulte ¿Qué es Photon? El uso de una versión reciente de Databricks Runtime con Photon habilitado suele proporcionar un buen rendimiento de combinación, pero también debe tener en cuenta las siguientes recomendaciones:

  • Las combinaciones cruzadas son muy costosas. Quite las combinaciones cruzadas de las cargas de trabajo y las consultas que requieren baja latencia o recomputación frecuente.

  • El orden de unión es importante. Al realizar varias combinaciones, primero una las tablas más pequeñas y, a continuación, une el resultado con tablas más grandes.

  • El optimizador puede tener problemas en las consultas con muchas combinaciones y agregaciones. Guardar los resultados intermedios puede acelerar la planificación de consultas y los resultados informáticos.

  • Mantenga nuevas estadísticas para mejorar el rendimiento. La optimización predictiva actualiza y mantiene automáticamente las estadísticas. Consulte Optimización predictiva para tablas administradas de Unity Catalog.

    También puede ejecutar la consulta ANALYZE TABLE table_name COMPUTE STATISTICS para actualizar las estadísticas en el planificador de consultas.

Nota:

En Databricks Runtime 14.3 LTS y versiones posteriores, puede modificar las columnas en las que Delta Lake recopila estadísticas para omitir datos y, a continuación, volver a calcular las estadísticas existentes en el registro delta. Consulte Especificación de columnas de estadísticas Delta.