Partage via


Scénario de bout en bout de Lakehouse : vue d’ensemble et architecture

Microsoft Fabric est une solution d’analytique tout-en-un pour les entreprises qui couvre tout, du déplacement des données à la science des données, à l’analytique en temps réel et au décisionnel. Il offre une suite complète de services, y compris le data lake, l'ingénierie des données et l'intégration des données, le tout au même endroit. Pour plus d’informations, voir Qu’est-ce que Microsoft Fabric ?

Ce tutoriel vous guide tout au long d’un scénario de bout en bout, de l’acquisition de données à la consommation de données. Il vous aide à développer une compréhension de base de Fabric, y compris les différentes expériences et la façon dont elles s’intègrent, ainsi que les expériences de développement professionnel et citoyen qui accompagnent l’utilisation de cette plateforme. Ce tutoriel n’est pas destiné à être une architecture de référence, une liste exhaustive de caractéristiques et de fonctionnalités ou une recommandation de meilleures pratiques spécifiques.

Scénario de bout en bout de Lakehouse

Traditionnellement, les organisations créent des entrepôts de données modernes pour leurs besoins d’analytique des données transactionnelles et structurées, ainsi que des data lakehouses pour répondre aux besoins d’analyse de données Big Data (semi/non structurée). Ces deux systèmes fonctionnaient en parallèle, créant des silos, des duplications des données et augmentant le coût total de possession.

Fabric, avec son unification du magasin de données et de la normalisation au format Delta Lake, vous permet d’éliminer les silos, de supprimer la duplication des données et de réduire considérablement le coût total de possession.

Grâce à la flexibilité offerte par Fabric, vous pouvez mettre en œuvre des architectures lakehouse ou d’entrepôt de données ou les combiner pour tirer le meilleur des deux avec une implémentation simple. Dans ce tutoriel, vous allez prendre un exemple d’organisation de vente au détail et créer son lakehouse du début à la fin. Il utilise l’architecture de médaillon où la couche de bronze contient les données brutes, la couche argent a les données validées et dédupliquées, et la couche or présente des données hautement affinées. Vous pouvez adopter la même approche pour implémenter un Lakehouse pour n’importe quel organisation de n’importe quel secteur.

Ce tutoriel explique comment un développeur de la société fictive Wide World Importers du domaine de vente au détail effectue les étapes suivantes :

  1. Connectez-vous à votre compte Power BI et inscrivez-vous à l’essai gratuit de Microsoft Fabric. Si vous n’avez pas de licence Power BI, inscrivez-vous à une licence gratuite Fabric, puis vous pouvez démarrer la version d’évaluation de Fabric.

  2. Créez et implémentez un lakehouse de bout en bout pour votre organisation :

  3. Nettoyez les ressources en supprimant l’espace de travail et d’autres éléments.

Architecture

L'image suivante présente l'architecture de bout en bout d'un "lakehouse". Les composants impliqués sont décrits dans la liste suivante.

Diagramme de l’architecture de bout en bout d’un lakehouse dans Microsoft Fabric.

  • Sources de données : Fabric permet de se connecter rapidement et facilement à Azure Data Services, ainsi qu’à d’autres plateformes cloud et sources de données locales, pour une ingestion simplifiée des données.

  • Ingestion : vous pouvez rapidement générer des insights pour votre organisation à l’aide de plus de 200 connecteurs natifs. Ces connecteurs sont intégrés au pipeline Fabric et utilisent la transformation de données par glisser-déposer, facile à utiliser, avec des flux de données. En outre, avec la fonctionnalité Raccourci dans Fabric, vous pouvez vous connecter à des données existantes, sans avoir à les copier ou à les déplacer.

  • Transformer et stocker : Fabric standardise sur le format Delta Lake. Cela signifie que tous les moteurs de Fabric peuvent accéder au même jeu de données stocké dans OneLake et les manipuler sans les dupliquer. Ce système de stockage offre la possibilité de créer des lakehouses à l’aide d’une architecture de médaillon ou d’un maillage de données, en fonction des besoins de votre organisation. Vous pouvez choisir entre une expérience à faible code ou sans code pour la transformation des données, en utilisant des pipelines/flux de données ou un notebook/Spark pour une expérience code-first.

  • Consommer : Power BI peut consommer des données de Lakehouse à des fins de création de rapports et de visualisation. Chaque Lakehouse dispose d’un point de terminaison TDS intégré, appelé point de terminaison d’analytique SQL, qui vous permet de vous connecter aux données et de les interroger facilement dans les tables Lakehouse à partir d’autres outils de reporting. Le point de terminaison d’analytique SQL fournit aux utilisateurs la fonctionnalité de connexion SQL.

Exemple de jeu de données

Ce tutoriel utilise l’exemple de base de données Wide World Importers (WWI) que vous importez dans le lakehouse dans le tutoriel suivant. Pour le scénario lakehouse de bout en bout, le jeu de données inclut suffisamment de données pour explorer les capacités de mise à l'échelle et les performances de la plateforme Fabric.

Wide World Importers (WWI) est un importateur et distributeur de produits de nouveauté de gros qui opère à partir de la baie de San Francisco. En tant que grossiste, les clients de la WWI sont principalement des entreprises qui revendent aux particuliers. La WWI vend aux clients de vente au détail à travers les États-Unis, y compris les magasins spécialisés, les supermarchés, les magasins informatiques, les magasins d’attraction touristique et certains particuliers. WWI vend également à d'autres grossistes via un réseau d'agents qui assurent la promotion des produits au nom de WWI. Pour en savoir plus sur le profil et le fonctionnement de l’entreprise, consultez Exemples de bases de données Wide World Importers pour Microsoft SQL.

En général, les données sont introduites à partir de systèmes transactionnels ou d’applications métier dans un lakehouse. Toutefois, pour plus de simplicité dans ce tutoriel, vous utilisez le modèle dimensionnel fourni par WWI comme source de données initiale. Vous chargez les données dans un lakehouse et les transformez à travers différentes étapes (Bronze, Argent et Or) d’une architecture en médaillon.

Modèle de données

Bien que le modèle dimensionnel WWI contienne de nombreuses tables de faits, ce tutoriel utilise la table de faits Sale et ses dimensions corrélées. L’exemple suivant illustre le modèle de données de WWI :

Diagramme de la table Sale Fact et des dimensions associées pour le modèle de données de ce didacticiel.

Flux de données et de transformation

Comme décrit précédemment, ce didacticiel utilise les données d'exemple de données Wide World Importers (WWI) pour créer un lakehouse de bout en bout. Dans cette implémentation, les exemples de données sont stockés dans un compte de stockage d’Azure Data au format de fichier Parquet pour toutes les tables. Toutefois, dans des scénarios réels, les données proviennent généralement de différentes sources et dans différents formats.

L’image suivante montre la transformation source, de destination et de données :

Diagramme montrant comment les données circulent et transforment dans Microsoft Fabric.

  • Source de données : les données sources sont au format de fichier Parquet et dans une structure non partitionnée. Il est stocké dans un dossier pour chaque table. Dans ce tutoriel, vous allez configurer un pipeline pour ingérer les données historiques complètes ou ponctuelles dans la lakehouse.

    Dans ce tutoriel, vous utilisez la table de faits Sale , qui comporte un dossier parent avec des données historiques pendant 11 mois (avec un sous-dossier pour chaque mois) et un autre dossier contenant des données incrémentielles pendant trois mois (un sous-dossier pour chaque mois). Pendant l'ingestion initiale des données, 11 mois de données sont intégrés dans la table du lakehouse. Lorsque les données incrémentielles arrivent, les données d’octobre et de novembre mises à jour sont fusionnées avec les données existantes, et les nouvelles données de décembre sont écrites dans la table lakehouse, comme illustré dans l’image suivante :

    Diagramme montrant comment fusionner de manière incrémentielle les données modifiées avec les données initialement ingérées dans un lakehouse.

  • Lakehouse : dans ce didacticiel, vous allez créer un lakehouse, ingérer des données dans la section fichiers du lakehouse, puis créer des tables delta lake dans la section Tables du lakehouse.

  • Transformation : Pour la préparation et la transformation des données, ce didacticiel couvre deux approches différentes : les notebooks et Spark pour une expérience orientée code, et les pipelines et les flux de données pour une expérience faible code ou sans code.

  • Consommer : Power BI peut consommer des données du lakehouse pour la création de rapports et la visualisation. Chaque lakehouse dispose d’un point de terminaison TDS intégré appelé point de terminaison d’analytique SQL pour faciliter la connectivité et l’interrogation des données dans les tables lakehouse à partir d’autres outils de création de rapports. Vous pouvez également utiliser la fonctionnalité Direct Lake pour créer des rapports et des tableaux de bord qui interrogent les données directement à partir du lakehouse. En outre, vous pouvez rendre vos données disponibles pour les outils de création de rapports non-Microsoft à l’aide du point de terminaison TDS/SQL Analytics pour vous connecter et exécuter des requêtes SQL pour l’analytique.

Étape suivante