Aide-mémoire sur la préparation des données

Les performances de décisionnel haut de gamme dépendent de la façon dont les données sont préparées et fournies à partir de Lakehouse. En adoptant des modèles architecturaux, en appliquant une structure sémantique et en utilisant des optimisations ciblées, vous pouvez réduire la complexité des requêtes, améliorer la réactivité du tableau de bord et réduire les coûts de calcul.

Le tableau suivant récapitule les pratiques recommandées, leur impact attendu, la documentation associée et les éléments d’action associés. Ce contenu est destiné aux ingénieurs données, aux développeurs décisionnels et aux auteurs de tableaux de bord qui conçoivent, optimisent et gèrent les charges de travail d’analyse dans Lakehouse.

Préparation des données

Meilleure pratique	Impact	Docs	Éléments d’action
Adopter une architecture de médaillon	Accélère la transformation des données brutes en produits de données prêts à l’emploi et fiables pour faciliter la consommation.	Medallion Architecture Glossaire de l’architecture Medallion Concepts d’entreposage de données	Examiner et implémenter les couches de médaillon
Utiliser le clustering liquide	Améliore les performances des requêtes grâce au saut des fichiers et des données.	Agrégation liquide	Appliquer à des tables volumineuses avec des modèles de filtre
Utiliser des tables managées	Azure Databricks régit automatiquement et optimise les performances de la couche de stockage et des requêtes.	Tables managées du catalogue Unity dans Azure Databricks	Créer des tables managées pour vos données
Utiliser l’optimisation prédictive ou optimiser les tables manuellement	Améliore les performances des requêtes en optimisant les tailles et la disposition des fichiers, en supprimant les anciens fichiers et en mettant à jour les statistiques.	Optimisation prédictive Optimiser la disposition des fichiers Analyser les métriques de stockage et de calcul des tables	Activer pour les tables de production ou planifier l’optimisation régulière et analyser les tables après les modifications de données
Données modélisées dans un schéma en étoile.	Facilite l’interrogation et l’utilisation des données.	Glossaire du schéma en étoile Cinq étapes simples pour implémenter un schéma en étoile	Concevoir des tables de faits et de dimensions
Éviter les types de données larges et les colonnes à cardinalité élevée	Optimise la taille et la consommation de mémoire du modèle de données et améliore l’efficacité des requêtes.	Guide d’optimisation des charges de travail de données	Passer en revue les types de données et la cardinalité
Déclarer des clés primaires et étrangères (avec RELY)	Optimise les requêtes en éliminant les jointures et les agrégations inutiles.	Optimisation des requêtes avec des contraintes	Définir des clés sur des tables de faits et de dimensions
Utiliser des colonnes générées automatiquement	Réduit la nécessité de calculer des valeurs au moment de la requête.	Colonnes générées	Identifier les champs fréquemment calculés
Utiliser des vues matérialisées et des tables persistantes	Améliore les performances en pré-agrégeant les données pour les requêtes les plus courantes et gourmandes en ressources.	Tables Vues matérialisées Utiliser des vues matérialisées dans Databricks SQL	Créer des vues agrégées pour les requêtes courantes

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-02-21

Partager via

Aide-mémoire sur la préparation des données

Préparation des données

Commentaires

Ressources supplémentaires