Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Avec Azure Databricks, vous pouvez créer des jointures dans vos tables de traitement par lots ou de diffusion en continu. Certaines jointures peuvent être coûteuses. Les éléments suivants peuvent vous aider à optimiser vos jointures.
Pour plus d’informations sur les jointures, consultez Travailler avec des jointures sur Azure Databricks.
Le calcul avec Photon activé sélectionne toujours le type de jointure le plus adapté. Consultez Qu’est-ce que Photon ?. L’utilisation d’une version récente de Databricks Runtime avec Photon activée fournit généralement de bonnes performances de jointure, mais vous devez également prendre en compte les recommandations suivantes :
Les jointures croisées sont très coûteuses. Supprimez les jointures croisées des charges de travail et des requêtes qui nécessitent une faible latence ou une recomputation fréquente.
L'ordre de jointure est important. Lorsque vous effectuez plusieurs jointures, joignez toujours d’abord vos tables les plus petites, puis joignez le résultat avec des tables plus grandes.
L'optimiseur peut rencontrer des difficultés avec les requêtes comprenant de nombreuses jointures et agrégations. L’enregistrement des résultats intermédiaires peut accélérer la planification des requêtes et les résultats informatiques.
Conservez de nouvelles statistiques pour améliorer les performances. L’optimisation prédictive met automatiquement à jour et gère les statistiques. Consultez Optimisation prédictive pour les tables managées Unity Catalog.
Vous pouvez également exécuter la requête
ANALYZE TABLE table_name COMPUTE STATISTICSpour mettre à jour les statistiques dans le planificateur de requêtes.
Note
Dans Databricks Runtime 14.3 LTS et versions ultérieures, vous pouvez modifier les colonnes sur lesquelles Delta Lake collecte les statistiques pour l'optimisation de saut de données, puis recalculer les statistiques existantes dans le journal Delta. Voir Spécifier les colonnes de statistiques Delta.