Tables Lakehouse et Delta Lake
Microsoft Fabric Lakehouse est une plateforme d’architecture de données permettant de stocker, de gérer et d’analyser des données structurées et non structurées dans un emplacement unique. Pour obtenir un accès fluide aux données entre tous les moteurs de calcul dans Microsoft Fabric, Delta Lake est le format de table unifié idéal.
Enregistrement des données dans le lakehouse à l’aide de fonctionnalités telles que Charger dans des tables ou des méthodes décrites dans Options pour obtenir des données dans le lakehouse Fabric, toutes les données sont enregistrées au format Delta.
Pour une présentation plus complète du format de table Delta Lake, suivez les liens de la section Étapes suivantes.
Big Data, Apache Spark et formats de table hérités
Microsoft Fabric Runtime pour Apache Spark utilise la même base que le runtime Azure Synapse Analytics pour Apache Spark, mais contient des différences clés pour fournir un comportement plus simplifié sur tous les moteurs du service Microsoft Fabric. Dans Microsoft Fabric, les fonctionnalités de performances clés sont activées par défaut. Les utilisateurs Apache Spark avancés peuvent rétablir les configurations aux valeurs précédentes pour mieux correspondre à des scénarios spécifiques.
Microsoft Fabric Lakehouse et le moteur Apache Spark prennent en charge tous les types de tables, managées et non managées. Cela inclut les affichages et les formats de table Hive non Delta standard. Les tables définies à l’aide de PARQUET, CSV, AVRO, JSON et tout format de fichier compatible avec Apache Hive fonctionnent comme prévu.
L’expérience de l’interface utilisateur de l’explorateur Lakehouse varie en fonction du type de table. À l’heure actuelle, l’explorateur Lakehouse affiche uniquement les objets de table.
Différences de configuration avec Azure Synapse Analytics
Le tableau suivant présente les différences de configuration entre Azure Synapse Analytics et Microsoft Fabric Runtime pour Apache Spark.
Configuration Apache Spark | Valeur Microsoft Fabric | Valeur Azure Synapse Analytics | Notes |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Format de table par défaut |
spark.sql.parquet.vorder.enabled | true | N/A | Enregistreur V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 Go | N/A | Limite de taille de page du dictionnaire pour V-Order |
spark.microsoft.delta.optimizeWrite.enabled | true | non défini (false) | Optimiser l'écriture |
Découverte automatique des tables
L’explorateur Lakehouse fournit un affichage de type arborescence des objets dans l’élément Microsoft Fabric Lakehouse. Il dispose de fonctionnalités clés de découverte et d’affichage des tables qui sont décrites dans le référentiel de métadonnées et dans le stockage OneLake. Les références de table sont affichées sous la section Tables
de l’interface utilisateur de l’explorateur Lakehouse. La découverte automatique s’applique également aux tables définies sur les raccourcis OneLake.
Tables sur les raccourcis
Microsoft Fabric Lakehouse prend en charge les tables définies sur des raccourcis OneLake, afin de fournir une compatibilité maximale et aucun déplacement de données. Le tableau suivant contient les meilleures pratiques en fonction du scénario pour chaque type d’élément lors de son utilisation sur des raccourcis.
Destination du raccourci | Où créer le raccourci | Meilleure pratique |
---|---|---|
Table Delta Lake | Tables section |
Si plusieurs tables sont présentes dans la destination, créez un raccourci par table. |
Dossiers avec des fichiers | Files section |
Servez-vous d’Apache Spark pour utiliser la destination directement à l’aide de chemins d’accès relatifs. Chargez les données dans des tables Delta natives Lakehouse pour des performances maximales. |
Tables Apache Hive héritées | Files section |
Servez-vous d’Apache Spark pour utiliser la destination directement à l’aide de chemins relatifs, ou créez une référence de catalogue de métadonnées à l’aide de la syntaxe CREATE EXTERNAL TABLE . Chargez les données dans des tables Delta natives Lakehouse pour des performances maximales. |
Charger dans des tables
Microsoft Fabric Lakehouse fournit une interface utilisateur pratique et productive pour simplifier le chargement des données dans des tables Delta. La fonctionnalité Charger dans des tables permet à une expérience visuelle de charger des formats de fichiers courants dans Delta afin d’améliorer la productivité analytique de toutes les personnes. Pour connaître tous les détails de la fonctionnalité Charger dans des tables, consultez la documentation de référence Lakehouse Charger dans des tables.
Optimisation de la table Delta Lake
Maintenir les tables en forme pour l’étendue des scénarios d’analytique n’est pas une prouesse mineure. Microsoft Fabric Lakehouse enclenche de manière proactive les paramètres importants pour réduire les problèmes courants associés aux tables Big Data, tels que le compactage et les petites tailles de fichiers, et pour optimiser les performances des requêtes. Néanmoins, il existe de nombreux scénarios dans lesquels ces paramètres doivent être modifiés. L’article Optimisation des tables Delta Lake et V-Order couvre certains scénarios clés et fournit un guide détaillé sur la façon de gérer efficacement les tables Delta pour des performances maximales.