Scénario Lakehouse de bout en bout : vue d’ensemble et architecture

Microsoft Fabric est une solution d’analytique tout-en-un pour les entreprises qui couvre tout, du déplacement des données à la science des données, à l’analytique en temps réel et au décisionnel. Il offre une suite complète de services, y compris le lac de données, l’ingénierie des données et l’intégration des données, le tout au même endroit. Pour plus d’informations, consultez Qu’est-ce que Microsoft Fabric ?

Ce tutoriel vous guide tout au long d’un scénario de bout en bout, de l’acquisition de données à la consommation des données. Il vous aide à développer une compréhension de base de Fabric, y compris les différentes expériences et leur intégration, ainsi que les expériences de développement professionnel et citoyen qui accompagnent l’utilisation de cette plateforme. Ce tutoriel n’est pas destiné à être une architecture de référence, une liste exhaustive de fonctionnalités et de fonctionnalités, ni une recommandation de bonnes pratiques spécifiques.

Important

Microsoft Fabric est en préversion.

Scénario Lakehouse de bout en bout

Traditionnellement, les organisations créent des entrepôts de données modernes pour leurs besoins d’analyse des données transactionnelles et structurées. Et les lakehouses de données pour les besoins d’analyse de données Big Data (semi/non structurées). Ces deux systèmes s’étaient exécutés en parallèle, créant des silos, duplicité des données et augmentant le coût total de possession.

Fabric, avec son unification du magasin de données et de la normalisation sur le format Delta Lake, vous permet d’éliminer les silos, de supprimer la duplicité des données et de réduire considérablement le coût total de possession.

Grâce à la flexibilité offerte par Fabric, vous pouvez implémenter des architectures lakehouse ou d’entrepôt de données ou combiner ces deux architectures pour tirer le meilleur profit des deux avec une implémentation simple. Dans ce tutoriel, vous allez prendre un exemple de organization de vente au détail et construire son lakehouse de bout en bout. Il utilise l’architecture de médaillon où la couche de bronze contient les données brutes, la couche argent a les données validées et dédupliquées, et la couche or a des données hautement affinées. Vous pouvez adopter la même approche pour implémenter un lakehouse pour n’importe quel organization de n’importe quel secteur.

Ce tutoriel explique comment un développeur de la société fictive Wide World Importers du domaine de vente au détail effectue les étapes suivantes :

  1. Connectez-vous à votre compte Power BI ou, si vous n’en avez pas encore, inscrivez-vous à un essai gratuit.

  2. Créez et implémentez un lakehouse de bout en bout pour votre organization :

    • Créer un espace de travail Fabric
    • Créez un lakehouse. Il comprend une section facultative pour implémenter l’architecture de médaillon qui est les couches de bronze, d’argent et d’or.
    • Ingérer des données, transformer des données et les charger dans le lakehouse. Chargez les données des zones bronze, argent et or sous forme de tables delta lake. Vous pouvez également explorer OneLake, OneCopy de vos données en mode lac et en mode entrepôt.
    • Connectez-vous à votre lakehouse à l’aide du point de terminaison TDS/SQL et créez un rapport Power BI à l’aide de DirectLake pour analyser les données de vente dans différentes dimensions.
    • Si vous le souhaitez, vous pouvez orchestrer et planifier le flux d’ingestion et de transformation des données avec un pipeline.
  3. Nettoyez les ressources en supprimant l’espace de travail et d’autres éléments.

Architecture

L’image suivante montre l’architecture lakehouse de bout en bout. Les composants impliqués sont décrits en détail ci-dessous :

Diagramme de l’architecture de bout en bout d’un lakehouse dans Microsoft Fabric.

  • Sources de données : Fabric permet de se connecter rapidement et facilement à Azure Data Services, ainsi qu’à d’autres plateformes cloud et sources de données locales, pour une ingestion simplifiée des données.

  • Ingestion : vous pouvez rapidement générer des insights pour votre organization à l’aide de plus de 200 connecteurs natifs. Ces connecteurs sont intégrés au pipeline Fabric et utilisent la transformation de données conviviale par glisser-déplacer avec le flux de données. En outre, avec la fonctionnalité Raccourci dans Fabric, vous pouvez vous connecter à des données existantes, sans avoir à les copier ou à les déplacer.

  • Transformer et stocker : La structure est standardisée au format Delta Lake. Ce qui signifie que tous les moteurs Fabric peuvent accéder et manipuler le même jeu de données stocké dans OneLake sans dupliquer les données. Ce système de stockage offre la possibilité de créer des lakehouses à l’aide d’une architecture de médaillons ou d’un maillage de données, en fonction des besoins de votre organisation. Vous pouvez choisir entre une expérience à faible code ou sans code pour la transformation des données, en utilisant des pipelines/flux de données ou des notebooks/Spark pour une expérience code-first.

  • Consommer : Power BI peut consommer des données de Lakehouse à des fins de création de rapports et de visualisation. Chaque Lakehouse dispose d’un point de terminaison TDS/SQL intégré, pour faciliter la connectivité et l’interrogation des données dans les tables Lakehouse à partir d’autres outils de création de rapports. En outre, lorsqu’un Lakehouse est créé, un élément secondaire correspondant appelé Entrepôt est automatiquement généré avec le même nom que lakehouse. Il fournit aux utilisateurs la fonctionnalité de point de terminaison TDS/SQL.

Exemple de jeu de données

Ce didacticiel utilise l’exemple de base de données Wide World Importers (WWI). Pour le scénario lakehouse de bout en bout, nous avons généré suffisamment de données pour explorer les fonctionnalités de mise à l’échelle et de performances de la plateforme Fabric.

Wide World Importers (WWI) est un importateur et distributeur de produits de première nécessité opérant dans la région de la baie de San Francisco. En tant que grossiste, les clients de WWI incluent principalement des entreprises qui revendent à des particuliers. La WWI vend aux clients de vente au détail dans les États-Unis y compris les magasins spécialisés, les supermarchés, les magasins informatiques, les magasins d’attraction touristique et certains individus. WWI vend également à d'autres grossistes via un réseau d'agents qui assurent la promotion des produits au nom de WWI. Pour en savoir plus sur le profil et le fonctionnement de l’entreprise, consultez Exemples de bases de données Wide World Importers pour Microsoft SQL.

En général, les données sont introduites à partir de systèmes transactionnels ou d’applications métier dans un lakehouse. Toutefois, par souci de simplicité dans ce tutoriel, nous allons utiliser le modèle dimensionnel fourni par WWI comme source de données initiale. Nous l’utilisons comme source pour ingérer les données dans un lakehouse et les transformer à travers différentes étapes (bronze, argent et or) d’une architecture de médaillons.

Modèle de données

Bien que le modèle dimensionnel WWI contienne de nombreuses tables de faits, pour ce tutoriel, nous allons utiliser la table de faits sale et ses dimensions corrélées. L’exemple suivant illustre le modèle de données WWI :

Diagramme de la table Des faits de vente et des dimensions associées pour le modèle de données de ce didacticiel.

Flux de données et de transformation

Comme décrit précédemment, nous allons utiliser les exemples de données d’exemples de données de Wide World Importers (WWI) pour créer ce lakehouse de bout en bout. Dans cette implémentation, les exemples de données sont stockés dans un compte de stockage de données Azure au format de fichier Parquet pour toutes les tables. Toutefois, dans les scénarios réels, les données proviennent généralement de différentes sources et dans différents formats.

L’image suivante montre la source, la destination et la transformation des données :

Diagramme de la façon dont les données circulent et se transforment dans Microsoft Fabric.

  • Source de données : les données sources sont au format de fichier Parquet et dans une structure nonpartitionnée. Il est stocké dans un dossier pour chaque table. Dans ce tutoriel, nous avons configuré un pipeline pour ingérer les données historiques ou ponctuelles complètes dans le lakehouse.

    Pour illustrer les fonctionnalités de chargement incrémentiel des données, nous avons un tutoriel facultatif à la fin de ce didacticiel. Dans ce tutoriel, nous utilisons la table de faits Sale , qui a un dossier parent avec des données historiques pendant 11 mois (avec un sous-dossier pour chaque mois) et un autre dossier contenant des données incrémentielles pendant trois mois (un sous-dossier par mois). Pendant l’ingestion initiale des données, 11 mois de données sont ingérés dans la table lakehouse. Toutefois, lorsque les données incrémentielles arrivent, elles incluent des données mises à jour pour oct et nov. Les nouvelles données d’octobre et de novembre sont fusionnées avec les données existantes et les nouvelles données déc sont écrites dans la table lakehouse, comme illustré dans l’image suivante :

    Diagramme montrant comment les données modifiées peuvent être fusionnées de manière incrémentielle dans des données initialement ingérées dans un lakehouse.

  • Lakehouse : dans ce tutoriel, vous allez créer un lakehouse, ingérer des données dans la section fichiers du lakehouse, puis créer des tables delta lake dans la section Tables du lakehouse. Vous trouverez un tutoriel facultatif, qui traite de la création du lakehouse avec l’architecture de médaillon quelques recommandations.

  • Transformation : Pour la préparation et la transformation des données, vous verrez deux approches différentes. Nous allons montrer l’utilisation de Notebooks/Spark pour les utilisateurs qui préfèrent une expérience code-first et utiliser des pipelines/dataflow pour les utilisateurs qui préfèrent une expérience à faible code ou sans code.

  • Consommer : pour illustrer la consommation de données, vous verrez comment utiliser la fonctionnalité DirectLake de Power BI pour créer des rapports, des tableaux de bord et interroger directement des données à partir du lakehouse. En outre, nous allons montrer comment mettre vos données à la disposition des outils de création de rapports tiers à l’aide du point de terminaison TDS/SQL. Ce point de terminaison vous permet de vous connecter à l’entrepôt et d’exécuter des requêtes SQL pour l’analytique.

Étapes suivantes

Passez à l’article suivant pour apprendre à