Utiliser la fonctionnalité de maintenance des tables pour gérer les tables delta dans Fabric
Dans Microsoft Fabric, le Lakehouse fournit la fonctionnalité de Maintenance des tables pour gérer efficacement les tables delta et les maintenir prêtes pour l’analytique. Ce guide décrit la fonctionnalité de maintenance des tables et ses capacités.
Principales capacités de la fonctionnalités de maintenance des tables Lakehouse :
- Effectuer une maintenance de tables ad hoc à l’aide d’actions associées au menu contextuel dans une table delta dans l’explorateur Lakehouse.
- Appliquer le compactage bin-compact, V-Order et le nettoyage d’anciens fichiers non référencés.
Remarque
Pour les tâches de maintenance avancées, comme le regroupement de plusieurs commandes de maintenance de tables, en l’orchestrant en fonction d’une planification, une approche centrée sur le code est le choix recommandé. Pour en savoir plus, consultez l’article Optimisation des tables Delta Lake et V-Order. Vous pouvez aussi utiliser l’API Lakehouse pour automatiser les opérations de maintenance de tables. Pour en savoir plus, consultez Gérer le lakehouse avec l’API REST Microsoft Fabric.
Types de fichiers pris en charge
La maintenance des tables Lakehouse s’applique uniquement aux tables Delta Lake. Les tables Hive héritées qui utilisent PARQUET, ORC, AVRO, CSV et d’autres formats ne sont pas prises en charge.
Opérations de maintenance de tables
La fonctionnalité de maintenance de tables offre trois opérations.
- Optimiser : Consolide plusieurs petits fichiers Parquet en un fichier volumineux. Les moteurs de traitement du Big Data et tous les moteurs Fabric tirent parti de l’utilisation de fichiers plus volumineux. Avoir des fichiers d’une taille supérieure à 128 Mo, et de façon optimale proche de 1 Go, améliore la compression et la distribution de données sur tous les nœuds de cluster. Cela réduit la nécessité d’analyser de nombreux petit fichiers en vue d’effectuer des opérations de lecture efficaces. Il est généralement recommandé d’exécuter des stratégies d’optimisation après avoir chargé des tables volumineuses.
- V-Order : applique le tri, le codage et la compression optimisés aux fichiers Delta Parquet pour permettre des opérations de lecture rapides sur l’ensemble des moteurs Fabric. V-Order se produit pendant la commande optimize et est présenté comme une option au groupe de commandes dans l’expérience utilisateur. Pour en savoir plus su V-Order, consultez Optimisation des tables Delta Lake et V-Order.
- Vacuum : supprime les anciens fichiers qui ne sont plus référencés par un journal de table Delta. Les fichiers doivent être antérieurs au seuil de conservation, et le seuil de conservation des fichiers par défaut est de sept jours. Toutes les tables delta de OneLake ont la même période de rétention. La période de rétention des fichiers est identique, quel que soit le moteur de calcul Fabric que vous utilisez. Cette maintenance est importante pour optimiser le coût de stockage. La définition d’une période de conservation plus brève affecte les capacités de voyage dans le temps de Delta. Il est généralement recommandé de définir un intervalle de conservation d’au moins sept jours, car les anciens instantanés et les fichiers non validés peuvent toujours être utilisés par des lecteurs ou des enregistreurs de table simultanés. Le nettoyage des fichiers actifs avec la commande VACUUM peut entraîner des échecs des lecteurs ou même l’endommagement des tables si des fichiers non validés sont supprimés.
Exécuter une maintenance de tables ad hoc sur une table Delta à l’aide de Lakehouse
Comment utiliser la fonctionnalité :
À partir de votre compte Microsoft Fabric, accédez au Lakehouse souhaité.
Dans la section Tables de l’explorateur Lakehouse, cliquez avec le bouton droit sur la table ou utilisez le bouton de sélection pour accéder au menu contextuel.
Sélectionnez l’entrée du menu Maintenance.
Cochez les options de maintenance dans la boîte de dialogue en fonction de vos exigences. Pour plus d’informations, consultez la section Opérations de maintenance de tables de cet article.
Sélectionnez Exécuter maintenant pour exécuter le travail de maintenance de tables.
Suivez l’exécution de la tâche de maintenance dans le panneau de notifications, ou dans le hub de supervision.
Fonctionnement de la maintenance de tables
Une fois Exécuter maintenant sélectionné, un travail de maintenance Spark est envoyé pour exécution.
- Le travail Spark est envoyé à l’aide de l’identité de l’utilisateur et des privilèges de table.
- Le travail Spark consomme la capacité Fabric de l’espace de travail/utilisateur qui a envoyé le travail.
- Si un autre travail de maintenance est en cours d’exécution sur une table, tout nouveau travail est rejeté.
- Les travaux sur différentes tables peuvent s’exécuter en parallèle.
- Il est facile de suivre les travaux de maintenance de tables dans le hub de monitoring. Recherchez le texte « TableMaintenance » (maintenance de tables) dans la colonne des noms d’activité de la page principale du hub de monitoring.