Scénario de bout en bout de Lakehouse : vue d’ensemble et architecture

Microsoft Fabric est une solution d’analytique tout-en-un pour les entreprises qui couvre tout, du déplacement des données à la science des données, à l’analytique en temps réel et au décisionnel. Il offre une suite complète de services, y compris le data lake, l'ingénierie des données et l'intégration des données, le tout au même endroit. Pour plus d’informations, voir Qu’est-ce que Microsoft Fabric ?

Ce tutoriel vous guide tout au long d’un scénario de bout en bout, de l’acquisition de données à la consommation de données. Il vous aide à développer une compréhension de base de Fabric, y compris les différentes expériences et la façon dont elles s’intègrent, ainsi que les expériences de développement professionnel et citoyen qui accompagnent l’utilisation de cette plateforme. Ce tutoriel n’est pas destiné à être une architecture de référence, une liste exhaustive de caractéristiques et de fonctionnalités ou une recommandation de meilleures pratiques spécifiques.

Scénario de bout en bout de Lakehouse

Traditionnellement, les organisations créent des entrepôts de données modernes pour leurs besoins d’analytique des données transactionnelles et structurées, ainsi que des data lakehouses pour répondre aux besoins d’analyse de données Big Data (semi/non structurée). Ces deux systèmes fonctionnaient en parallèle, créant des silos, des duplications des données et augmentant le coût total de possession.

Fabric, avec son unification du magasin de données et de la normalisation au format Delta Lake, vous permet d’éliminer les silos, de supprimer la duplication des données et de réduire considérablement le coût total de possession.

Grâce à la flexibilité offerte par Fabric, vous pouvez mettre en œuvre des architectures lakehouse ou d’entrepôt de données ou les combiner pour tirer le meilleur des deux avec une implémentation simple. Dans ce tutoriel, vous allez prendre un exemple d’organisation de vente au détail et créer son lakehouse du début à la fin. Il utilise l’architecture de médaillon où la couche de bronze contient les données brutes, la couche argent a les données validées et dédupliquées, et la couche or présente des données hautement affinées. Vous pouvez adopter la même approche pour implémenter un Lakehouse pour n’importe quel organisation de n’importe quel secteur.

Ce tutoriel explique comment un développeur de la société fictive Wide World Importers du domaine de vente au détail effectue les étapes suivantes :

Connectez-vous à votre compte Power BI et inscrivez-vous à l’essai gratuit de Microsoft Fabric. Si vous n’avez pas de licence Power BI, inscrivez-vous à une licence gratuite Fabric, puis vous pouvez démarrer la version d’évaluation de Fabric.
Créez et implémentez un lakehouse de bout en bout pour votre organisation :
- Créer un espace de travail Fabric.
- Créer un lakehouse.
- Ingérer des données, transformer des données et les charger dans le lakehouse. Vous pouvez également explorer OneLake, qui contient une seule copie de vos données accessible en mode lakehouse et en mode point de terminaison analytique SQL.
- Connectez-vous à votre lakehouse à l’aide du point de terminaison d’analytique SQL et créez un modèle sémantique et générez un rapport pour analyser les données de vente dans différentes dimensions.
- Si vous le souhaitez, vous pouvez orchestrer et planifier l’ingestion et le flux de transformation des données avec un pipeline.
Nettoyez les ressources en supprimant l’espace de travail et d’autres éléments.

Architecture

L'image suivante présente l'architecture de bout en bout d'un "lakehouse". Les composants impliqués sont décrits dans la liste suivante.

Sources de données : Fabric permet de se connecter rapidement et facilement à Azure Data Services, ainsi qu’à d’autres plateformes cloud et sources de données locales, pour une ingestion simplifiée des données.
Ingestion : vous pouvez rapidement générer des insights pour votre organisation à l’aide de plus de 200 connecteurs natifs. Ces connecteurs sont intégrés au pipeline Fabric et utilisent la transformation de données par glisser-déposer, facile à utiliser, avec des flux de données. En outre, avec la fonctionnalité Raccourci dans Fabric, vous pouvez vous connecter à des données existantes, sans avoir à les copier ou à les déplacer. Les raccourcis OneLake peuvent également référencer des produits de données entre les locataires via le partage de données externe OneLake, ce qui vous donne accès à des données opérationnelles actives et régies sans copier ou créer des pipelines ETL. Fabric inclut également des lecteurs de fichiers vectoriels hautes performances pour des formats courants tels que CSV (avec prise en charge JSON à venir) afin de réduire la latence d’ingestion.
Transformer et stocker : Fabric standardise sur le format Delta Lake. Cela signifie que tous les moteurs de Fabric peuvent accéder au même jeu de données stocké dans OneLake et les manipuler sans les dupliquer. Le modèle de gouvernance unifié de OneLake garantit que les données accessibles via des raccourcis participent aux mêmes stratégies de sécurité et de conformité que les données stockées localement, fournissant une version unique de la vérité au sein de l’organisation. Ce système de stockage offre la possibilité de créer des lakehouses à l’aide d’une architecture de médaillon ou d’un maillage de données, en fonction des besoins de votre organisation. Vous pouvez choisir entre une expérience à faible code ou sans code pour la transformation des données, en utilisant des pipelines/flux de données ou un notebook/Spark pour une expérience code-first. Les tables Lakehouse prennent également en charge les optimisations des performances telles que le classement Z et le clustering Liquid pour améliorer les performances des requêtes et gérer la disposition des données à grande échelle. En outre, les vues matérialisées du lac sont disponibles pour précomputer et mettre en cache les résultats sur les données lakehouse, ce qui accélère l’analyse répétée.
Consommer : Power BI peut consommer des données de Lakehouse à des fins de création de rapports et de visualisation. Chaque Lakehouse dispose d’un point de terminaison TDS intégré, du point de terminaison d’analytique SQL, pour faciliter la connectivité et l’interrogation des données dans les tables Lakehouse à partir d’autres outils de création de rapports.

Grâce au partage de données interlocataire, les rapports, les modèles sémantiques et les charges de travail d'IA/science des données peuvent également consommer des données OneLake partagées au-delà des frontières organisationnelles, facilitant ainsi la collaboration sans duplication des données.

Exemple de jeu de données

Ce tutoriel utilise l’exemple de base de données Wide World Importers (WWI) que vous importez dans le lakehouse dans le tutoriel suivant. Pour le scénario lakehouse de bout en bout, le jeu de données inclut suffisamment de données pour explorer les capacités de mise à l'échelle et les performances de la plateforme Fabric.

Wide World Importers (WWI) est un importateur et distributeur de produits de nouveauté de gros qui opère à partir de la baie de San Francisco. En tant que grossiste, les clients de la WWI sont principalement des entreprises qui revendent aux particuliers. La WWI vend aux clients de vente au détail à travers les États-Unis, y compris les magasins spécialisés, les supermarchés, les magasins informatiques, les magasins d’attraction touristique et certains particuliers. WWI vend également à d'autres grossistes via un réseau d'agents qui assurent la promotion des produits au nom de WWI. Pour en savoir plus sur le profil et le fonctionnement de l’entreprise, consultez Exemples de bases de données Wide World Importers pour Microsoft SQL.

En général, les données sont introduites à partir de systèmes transactionnels ou d’applications métier dans un lakehouse. Toutefois, pour plus de simplicité dans ce tutoriel, vous utilisez le modèle dimensionnel fourni par WWI comme source de données initiale. Vous chargez les données dans un lakehouse et les transformez à travers différentes étapes (Bronze, Argent et Or) d’une architecture en médaillon.

Modèle de données

Bien que le modèle dimensionnel WWI contienne de nombreuses tables de faits, ce tutoriel utilise la table de faits Sale et ses dimensions corrélées. L’exemple suivant illustre le modèle de données de WWI :

Flux de données et de transformation

Comme décrit précédemment, ce didacticiel utilise les données d'exemple de données Wide World Importers (WWI) pour créer un lakehouse de bout en bout. Dans cette implémentation, les exemples de données sont stockés dans un compte de stockage d’Azure Data au format de fichier Parquet pour toutes les tables. Toutefois, dans des scénarios réels, les données proviennent généralement de différentes sources et dans différents formats.

L’image suivante montre la transformation source, de destination et de données :

Source de données : les données sources sont au format de fichier Parquet et dans une structure non partitionnée. Il est stocké dans un dossier pour chaque table. Dans ce tutoriel, vous allez configurer un pipeline pour ingérer les données historiques complètes ou ponctuelles dans la lakehouse.

Dans ce tutoriel, vous utilisez la table de faits Sale , qui comporte un dossier parent avec des données historiques pendant 11 mois (avec un sous-dossier pour chaque mois) et un autre dossier contenant des données incrémentielles pendant trois mois (un sous-dossier pour chaque mois). Pendant l'ingestion initiale des données, 11 mois de données sont intégrés dans la table du lakehouse. Lorsque les données incrémentielles arrivent, les données d’octobre et de novembre mises à jour sont fusionnées avec les données existantes, et les nouvelles données de décembre sont écrites dans la table lakehouse, comme illustré dans l’image suivante :
Lakehouse : dans ce didacticiel, vous allez créer un lakehouse, ingérer des données dans la section fichiers du lakehouse, puis créer des tables delta lake dans la section Tables du lakehouse.
Transformation : Pour la préparation et la transformation des données, ce didacticiel couvre deux approches différentes : les notebooks et Spark pour une expérience orientée code, et les pipelines et les flux de données pour une expérience faible code ou sans code. Le dernier runtime Fabric inclut un moteur d’exécution natif qui offre des améliorations significatives de performances par rapport à Spark en open source pour les workloads de notebooks et de jobs Spark.
Consommer : Power BI peut consommer des données du lakehouse pour la création de rapports et la visualisation. Chaque lakehouse dispose d’un point de terminaison TDS intégré appelé point de terminaison d’analytique SQL pour faciliter la connectivité et l’interrogation des données dans les tables lakehouse à partir d’autres outils de création de rapports. Vous pouvez également utiliser Direct Lake sur OneLake pour permettre à Power BI de interroger directement des tables lakehouse sans importation ni cycle d’actualisation de modèle sémantique dédié. En outre, vous pouvez rendre vos données disponibles pour les outils de création de rapports non-Microsoft à l’aide du point de terminaison TDS/SQL Analytics pour vous connecter et exécuter des requêtes SQL pour l’analytique.

Étape suivante

Créer un lakehouse

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-31

Partager via

Scénario de bout en bout de Lakehouse : vue d’ensemble et architecture