Partilhar via


Otimizar o desempenho de associação no Azure Databricks

Com o Azure Databricks, você pode criar junções em suas tabelas de lote ou streaming. Algumas adesões podem ser caras. O seguinte pode ajudá-lo a otimizar suas associações.

Para obter mais informações sobre associações, consulte Trabalhar com associações no Azure Databricks.

Computar com Photon ativado sempre seleciona o melhor tipo de junção. Veja O que é Photon?. Usar uma versão recente do Databricks Runtime com o Photon habilitado geralmente oferece um bom desempenho de junção, mas você também deve considerar as seguintes recomendações:

  • As junções cruzadas são muito caras. Remova junções cruzadas de cargas de trabalho e consultas que exigem baixa latência ou recomputação frequente.

  • A ordem de adesão é importante. Ao realizar várias ligações, comece sempre por juntar as suas tabelas mais pequenas e, em seguida, ligue o resultado a tabelas maiores.

  • O otimizador pode ter dificuldades em consultas com muitas junções e agregações. Salvar resultados intermediários pode acelerar o planejamento de consultas e os resultados de computação.

  • Mantenha estatísticas atualizadas para melhorar o desempenho. A otimização preditiva atualiza e mantém estatísticas automaticamente. Consulte Otimização preditiva para tabelas gerenciadas do Unity Catalog.

    Você também pode executar a consulta ANALYZE TABLE table_name COMPUTE STATISTICS para atualizar estatísticas no planejador de consultas.

Observação

No Databricks Runtime 14.3 LTS e superior, você pode modificar as colunas nas quais o Delta Lake coleta estatísticas para pular dados e, em seguida, recalcular as estatísticas existentes no log Delta. Consulte Especificar colunas de estatísticas delta.