Compartilhar via


Otimizar o desempenho de junção no Azure Databricks

Com o Azure Databricks, você pode criar junções em seu lote ou em tabelas de streaming. Algumas junções podem ser caras. As seguintes dicas podem ajudá-lo a otimizar suas junções.

Para obter mais informações sobre junções, consulte Trabalhar com junções no Azure Databricks.

A computação com o Photon habilitado sempre seleciona o melhor tipo de junção. Confira O que é o Photon?. Usar uma versão recente do Databricks Runtime com o Photon habilitado geralmente fornece um bom desempenho de junção, mas você também deve considerar as seguintes recomendações:

  • Junções cruzadas são muito caras. Remova junções cruzadas de cargas de trabalho e consultas que exigem baixa latência ou recomputação frequente.

  • A ordem de junção é importante. Ao executar várias junções, sempre junte suas menores tabelas primeiro e depois una o resultado às tabelas maiores.

  • O otimizador pode ter dificuldades em consultas com muitas junções e agregações. Salvar resultados intermediários pode acelerar o planejamento de consultas e os resultados da computação.

  • Mantenha novas estatísticas para melhorar o desempenho. A otimização preditiva atualiza e mantém automaticamente as estatísticas. Consulte Otimização Preditiva para Tabelas Gerenciadas do Unity Catalog.

    Você também pode executar a consulta ANALYZE TABLE table_name COMPUTE STATISTICS para atualizar estatísticas no planejador de consultas.

Observação

No Databricks Runtime 14.3 LTS e posteriores, você pode modificar as colunas nas quais o Delta Lake coleta estatísticas para pular dados e, em seguida, recalcular estatísticas existentes no log do Delta. Confira Especificar as colunas de estatísticas Delta.