Tables Lakehouse et Delta Lake
Microsoft Fabric Lakehouse est une plateforme d’architecture de données permettant de stocker, de gérer et d’analyser des données structurées et non structurées dans un emplacement unique. Pour obtenir un accès fluide aux données sur tous les moteurs de calcul dans Microsoft Fabric, Delta Lake est choisi comme format de table unifié.
En enregistrant des données dans le Lakehouse à l’aide de fonctionnalités telles que Charger dans des tables ou des méthodes décrites dans Options pour obtenir des données dans l’infrastructure Lakehouse, toutes les données sont enregistrées au format Delta. Delta est également utilisé comme mode de format de table Spark par défaut dans les expériences code-first telles que les notebooks et les définitions de travaux Spark.
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.
Pour une présentation plus complète du format de table Delta Lake, suivez les liens de la section Étapes suivantes.
Big Data, Apache Spark et formats de table hérités
Microsoft Fabric Runtime pour Apache Spark utilise la même base que Azure Synapse Analytics Runtime pour Apache Spark, mais contient des différences clés pour fournir un comportement plus rationalisé sur tous les moteurs du service Microsoft Fabric. Dans Microsoft Fabric, les principales fonctionnalités de performances sont activées par défaut. Les utilisateurs Apache Spark avancés peuvent rétablir les configurations à des valeurs précédentes pour mieux s’aligner sur des scénarios spécifiques.
Microsoft Fabric Lakehouse et le moteur Apache Spark prennent en charge tous les types de tables, gérés et non managés ; cela inclut les vues et les formats de table Hive non Delta standard. Les tables définies à l’aide de PARQUET, CSV, AVRO, JSON et tout format de fichier compatible Apache Hive fonctionnent comme prévu.
L’expérience de l’interface utilisateur de Lakehouse Explorer varie en fonction du type de table. Actuellement, l’explorateur Lakehouse affiche uniquement les objets de table.
Différences de configuration avec Azure Synapse Analytics
Le tableau suivant contient les différences de configuration entre Azure Synapse Analytics et Microsoft Fabric Runtime pour Apache Spark.
Configuration Apache Spark | Valeur de Microsoft Fabric | Valeur Azure Synapse Analytics | Remarques |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Format de tableau par défaut |
spark.sql.parquet.vorder.enabled | true | N/A | Enregistreur V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 Go | N/A | Limite de taille de page de dictionnaire pour V-Order |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Optimiser l’écriture |
Découverte automatique des tables
L’explorateur Lakehouse fournit une vue arboresque des objets dans l’élément Microsoft Fabric Lakehouse. Il a une fonctionnalité clé de découverte et d’affichage des tables qui sont décrites dans le référentiel de métadonnées et dans le stockage OneLake. Les références de table sont affichées sous la Tables
section de l’interface utilisateur de Lakehouse Explorer. La découverte automatique s’applique également aux tables définies sur les raccourcis OneLake.
Tables sur les raccourcis
Microsoft Fabric Lakehouse prend en charge les tables définies sur les raccourcis OneLake, pour fournir une compatibilité maximale et aucun déplacement de données. Le tableau suivant contient les meilleures pratiques de scénario pour chaque type d’élément lors de son utilisation sur des raccourcis.
Destination du raccourci | Où créer le raccourci | Bonne pratique |
---|---|---|
Table Delta Lake | Tables section |
Si plusieurs tables sont présentes dans la destination, créez un raccourci par table. |
Dossiers avec des fichiers | Files section |
Utilisez Apache Spark pour utiliser la destination directement à l’aide de chemins relatifs. Chargez les données dans des tables Delta natives Lakehouse pour des performances maximales. |
Tables Apache Hive héritées | Files section |
Utilisez Apache Spark pour utiliser la destination directement à l’aide de chemins d’accès relatifs, ou créez une référence de catalogue de métadonnées à l’aide CREATE EXTERNAL TABLE de la syntaxe. Chargez les données dans des tables Delta natives Lakehouse pour des performances maximales. |
Charger dans des tables
Microsoft Fabric Lakehouse fournit une interface utilisateur pratique et productive pour simplifier le chargement des données dans des tables Delta. La fonctionnalité Charger dans les tables permet à des expériences visuelles de charger des formats de fichiers courants dans Delta afin d’améliorer la productivité analytique de tous les personnages. Pour en savoir plus sur la fonctionnalité Charger sur des tables en détail, consultez la documentation de référence de Lakehouse Load to Tables .
Optimisation des tables Delta Lake
Maintenir des tables en forme pour l’étendue des scénarios d’analytique n’est pas un exploit mineur. Microsoft Fabric Lakehouse active de manière proactive les paramètres importants pour réduire les problèmes courants associés aux tables Big Data, tels que le compactage et les petites tailles de fichiers, et pour optimiser les performances des requêtes. Néanmoins, il existe de nombreux scénarios dans lesquels ces paramètres nécessitent des modifications. L’article Sur l’optimisation des tables Delta Lake et V-Order couvre certains scénarios clés et fournit un guide détaillé sur la façon de gérer efficacement les tables Delta pour des performances maximales.