Mieux ensemble : le lakehouse et l’entrepôt

S’applique à : point de terminaison d’analytique SQL et entrepôt dans Microsoft Fabric

Cet article décrit l’expérience d’entrepôt de données avec le point de terminaison d’analytique SQL du Lakehouse, ainsi que les scénarios d’utilisation du Lakehouse dans l’entrepôt de données.

Qu’est-ce qu’un point de terminaison d’analytique SQL du Lakehouse ?

Dans Fabric, lorsque vous créez un lakehouse, un entrepôt est automatiquement créé.

Le point de terminaison d’analytique SQL vous permet d’interroger des données dans le Lakehouse à l’aide du langage T-SQL et du protocole TDS. Chaque Lakehouse a un point de terminaison d’analytique SQL, et chaque espace de travail peut avoir plusieurs Lakehouses. Le nombre de points de terminaison d’analytique SQL dans un espace de travail correspond au nombre d’éléments Lakehouse.

  • Le point de terminaison d’analytique SQL est généré automatiquement pour chaque Lakehouse et expose les tables Delta du Lakehouse en tant que tables SQL pouvant être interrogées à l’aide du langage T-SQL.
  • Chaque table delta d’un Lakehouse est représentée sous la forme d’une table. Les données doivent être au format delta.
  • Le modèle sémantique Power BI par défaut est créé pour chaque point de terminaison d’analytique SQL et suit la convention de nommage des objets Lakehouse.

Il n’est pas nécessaire de créer un point de terminaison d’analytique SQL dans Microsoft Fabric. Les utilisateurs de Microsoft Fabric ne peuvent pas créer de point de terminaison d’analytique SQL dans un espace de travail. Un point de terminaison d’analytique SQL est automatiquement créé pour chaque Lakehouse. Pour obtenir un point de terminaison d’analytique SQL, créez un Lakehouse et un point de terminaison d’analytique SQL sera automatiquement créé pour celui-ci.

Remarque

En arrière-plan, le point de terminaison d’analytique SQL utilise le même moteur que l’entrepôt pour servir des requêtes SQL hautes performances à faible latence.

Découverte automatique des métadonnées

Un processus transparent lit les journaux delta et à partir du dossier files et garantit que les métadonnées SQL pour les tables, telles que les statistiques, sont toujours à jour. Aucune action de l’utilisateur n’est nécessaire et il n’est pas nécessaire d’importer, de copier des données ou de configurer l’infrastructure. Pour plus d’informations, consultez Schéma généré automatiquement dans le point de terminaison d’analytique SQL.

Scénarios activés par Lakehouse pour l’entreposage de données

Dans Fabric, nous proposons un seul entrepôt.

Le Lakehouse, avec son point de terminaison d’analytique SQL, alimenté par l’entrepôt, peut simplifier l’arbre de décision traditionnel des modèles d’architecture batch, streaming ou lambda. Avec un entrepôt, le lakehouse permet de nombreux scénarios d’analytique additive. Cette section explique comment tirer parti d’un Lakehouse et d’un entrepôt pour une stratégie d’analytique optimale.

Analytique avec la couche or de votre Fabric Lakehouse

L’une des stratégies bien connues pour les organisations de données de lac est une architecture en médaillon où les fichiers sont organisés en couches brutes (bronze), consolidées (argent) et affinées (or). Un point de terminaison d’analytique SQL peut être utilisé pour analyser des données dans la couche or de l’architecture de médaillon si les fichiers sont stockés au format Delta Lake, même s’ils sont stockés en dehors de Microsoft Fabric OneLake.

Vous pouvez utiliser des raccourcis OneLake pour référencer des dossiers Gold dans des comptes de stockage Azure Data Lake externes gérés par des moteurs Synapse Spark ou Azure Databricks.

Les entrepôts peuvent également être ajoutés en tant que solutions orientées vers un domaine ou une zone pour des sujets spécifiques qui peuvent avoir des exigences d’analyse sur mesure.

Si vous choisissez de conserver vos données dans Fabric, elles seront toujours ouvertes et accessibles via les API, le format Delta et bien sûr T-SQL.

Interroger en tant que service sur vos tables delta à partir de Lakehouse et d’autres éléments de OneLake Data Hub

Il existe des cas d’utilisation où un analyste, un scientifique des données ou un ingénieur données peut avoir besoin d’interroger des données dans un lac de données. Dans Fabric, cette expérience de bout en bout est entièrement SaaSified.

OneLake est un lac de données unique, unifié et logique pour l'ensemble de l'organisation. OneLake est OneDrive pour les données. OneLake peut contenir plusieurs espaces de travail, par exemple, le long de vos divisions organisationnelles. Chaque élément de l’infrastructure rend les données accessibles via OneLake.

Les données d’un Microsoft Fabric Lakehouse sont physiquement stockées dans OneLake avec la structure de dossiers suivante :

  • Le dossier/Files contient des fichiers bruts et non consolidés (bronze) qui doivent être traités par les ingénieurs données avant leur analyse. Les fichiers peuvent être dans différents formats tels que CSV, Parquet, différents types d’images, etc.
  • Le dossier /Tables contient des données affinées et consolidées (gold) prêtes pour l’analyse métier. Les données consolidées sont au format Delta Lake.

Un point de terminaison d’analytique SQL peut lire des données dans le dossier /tables au sein de OneLake. L’analyse est aussi simple que l’interrogation du point de terminaison d’analytique SQL du Lakehouse. Avec l’entrepôt, vous bénéficiez également de requêtes inter-bases de données et de la possibilité de passer de requêtes en lecture seule à la création d’une logique métier supplémentaire sur vos données OneLake avec Synapse Data Warehouse.

Ingénieurs de données avec Spark et service avec SQL

Les entreprises pilotées par les données doivent assurer la synchronisation en quasi-temps réel de leurs systèmes de back-end et d’analytique avec les applications orientées clients. L’impact des transactions doit être reflété avec précision dans les processus de bout en bout, les applications associées et les systèmes OLTP (Online Transaction Processing).

Dans Fabric, vous pouvez tirer parti de Spark Streaming ou de Ingénieurs de données pour organiser vos données. Vous pouvez utiliser le point de terminaison d’analytique SQL du Lakehouse pour valider la qualité des données et pour les processus T-SQL existants. Cela peut être effectué dans une architecture en médaillon ou dans plusieurs couches de votre Lakehouse, en servant des données de bronze, d’argent, d’or ou de mise en scène, organisées et affinées. Vous pouvez personnaliser les dossiers et les tables créés via Spark pour répondre à vos besoins métier et d’ingénierie des données. Lorsque vous êtes prêt, vous pouvez ensuite tirer parti d’un entrepôt pour traiter toutes vos applications décisionnelles en aval et d’autres cas d’usage d’analytique, sans copier de données, utiliser des vues ou affiner les données à l’aide de CREATE TABLE AS SELECT (CTAS), de procédures stockées et d’autres commandes DML/DDL.

Intégration à la couche d’or d’Open Lakehouse

Un point de terminaison d’analytique SQL ne s’étend pas à l’analytique données dans le Lakehouse Fabric uniquement. Un point de terminaison d’analytique SQL vous permet d’analyser des données de lac dans n’importe quel lakehouse, à l’aide de Synapse Spark, d’Azure Databricks ou de tout autre moteur d’engineering données centré sur le lac. Les données peuvent être stockées dans Azure Data Lake Storage ou Amazon S3.

Cette intégration étroite et bidirectionnelle à Fabric Lakehouse est toujours accessible via n’importe quel moteur avec des API ouvertes, le format Delta et bien sûr T-SQL.

Virtualisation des données de lacs de données externes avec raccourcis

Vous pouvez utiliser des raccourcis OneLake pour référencer des dossiers Gold dans des comptes de stockage Azure Data Lake externes gérés par des moteurs Synapse Spark ou Azure Databricks, ainsi que toute table delta stockée dans Amazon S3.

Tout dossier référencé à l’aide d’un raccourci peut être analysé à partir d’un point de terminaison d’analytique SQL et une table SQL est créée pour les données référencées. La table SQL peut être utilisée pour exposer des données dans des lacs de données gérés en externe et activer l’analytique sur ces derniers.

Ce raccourci agit comme un entrepôt virtuel qui peut être utilisé à partir d’un entrepôt pour des exigences d’analyse en aval supplémentaires, ou interrogé directement.

Procédez comme suit pour analyser des données dans des comptes data lake storage externes :

  1. Créez un raccourci qui référence un dossier dans Azure Data Lake Storage ou un compte Amazon S3. Une fois que vous avez entré les informations de connexion et les informations d’identification, un raccourci s’affiche dans lakehouse.
  2. Basculez vers le point de terminaison d’analytique SQL du Lakehouse et recherchez une table SQL dont le nom correspond à celui du raccourci. Cette table SQL fait référence au dossier dans le dossier ADLS/S3.
  3. Interrogez la table SQL qui référence des données dans ADLS/S3. La table peut être utilisée comme n’importe quelle autre table dans le point de terminaison d’analytique SQL. Vous pouvez joindre des tables qui référencent des données dans différents comptes de stockage.

Remarque

Si la table SQL n’apparaît pas immédiatement dans le point de terminaison d’analytique SQL, vous devrez peut-être attendre quelques minutes. La table SQL qui référence des données dans le compte de stockage externe est créée avec un délai.

Analyser des données archivées ou historiques dans un lac de données

Le partitionnement des données est une technique bien connue d’optimisation de l’accès aux données dans les lacs de données. Les jeux de données partitionnés sont stockés dans les structures de dossiers hiérarchiques au format /year=<year>/month=<month>/day=<day>, où year, monthet day sont les colonnes de partitionnement. Cela vous permet de stocker des données historiques séparées logiquement dans un format qui permet aux moteurs de calcul de lire les données en fonction des besoins avec un filtrage performant, au lieu de lire l’intégralité du répertoire et tous les dossiers et fichiers contenus dans.

Les données partitionnée permettent un accès plus rapide si les requêtes filtrent sur les prédicats qui comparent des colonnes de prédicat avec une valeur.

Un point de terminaison d’analytique SQL peut facilement lire ce type de données sans nécessiter de configuration. Par exemple, vous pouvez utiliser n’importe quelle application pour archiver des données dans un lac de données, notamment SQL Server 2022 ou Azure SQL Managed Instance. Après avoir partitionné des données et les avoir posées dans un lac à des fins d’archivage avec des tables externes, un point de terminaison d’analytique SQL peut lire les tables Delta Lake partitionnés en tant que tables SQL et permettre à votre organisation de les analyser. Cela réduit le coût total de possession, réduit la duplication des données et éclaire le Big Data, l’IA et d’autres scénarios d’analyse.

Virtualisation des données Fabric avec des raccourcis

Dans Fabric, les espaces de travail vous permettent de séparer les données en fonction des exigences métier, géographiques ou réglementaires complexes.

Un point de terminaison d’analytique SQL vous permet de laisser les données en place et de les analyser quand même dans l’entrepôt ou le Lakehouse, même dans d’autres espaces de travail Microsoft Fabric, par le biais d’une virtualisation fluide. Chaque Microsoft Fabric Lakehouse stocke des données dans OneLake.

Les raccourcis vous permettent de référencer des dossiers dans n’importe quel emplacement OneLake.

Chaque entrepôt Microsoft Fabric stocke les données de table dans OneLake. Si une table est en ajout uniquement, les données de table sont exposées en tant que données Delta Lake dans OneLake. Les raccourcis vous permettent de référencer des dossiers dans n’importe quel OneLake où les tables d’entrepôt sont exposées.

Partage et interrogation entre espaces de travail

Bien que les espaces de travail vous permettent de séparer les données en fonction d’exigences métier, géographiques ou réglementaires complexes, vous devez parfois faciliter le partage entre ces lignes pour des besoins d’analyse spécifiques.

Un point de terminaison d’analytique SQL du Lakehouse peut faciliter le partage de données entre les services et les utilisateurs, car un utilisateur peut apporter sa propre capacité et son propre entrepôt. Les espaces de travail organisent des services, des unités commerciales ou des domaines analytiques. À l’aide de raccourcis, les utilisateurs peuvent trouver n’importe quelle donnée d’entrepôt ou de Lakehouse. Les utilisateurs peuvent effectuer instantanément leurs propres analyses personnalisées à partir des mêmes données partagées. En plus de faciliter les rétro-facturations départementales et l’allocation d’utilisation, il s’agit également d’une version sans copie des données.

Le point de terminaison d’analytique SQL permet d’interroger n’importe quelle table et d’en faciliter le partage. Les contrôles ajoutés des rôles d’espace de travail et des rôles de sécurité qui peuvent être davantage superposés pour répondre à des exigences métier supplémentaires.

Procédez comme suit pour activer l’analytique des données inter-espaces de travail :

  1. Créez un raccourci OneLake qui référence une table ou un dossier dans un espace de travail auquel vous pouvez accéder.
  2. Choisissez un lakehouse ou un entrepôt qui contient une table ou un dossier Delta Lake que vous souhaitez analyser. Une fois que vous avez sélectionné une table/un dossier, un raccourci s’affiche dans lakehouse.
  3. Basculez vers le point de terminaison d’analytique SQL du Lakehouse et recherchez la table SQL dont le nom correspond à celui du raccourci. Cette table SQL fait référence au dossier d’un autre espace de travail.
  4. Interrogez la table SQL qui référence des données dans un autre espace de travail. La table peut être utilisée comme n’importe quelle autre table dans le point de terminaison d’analytique SQL. Vous pouvez joindre les tables qui référencent des données dans différents espaces de travail.

Remarque

Si la table SQL n’apparaît pas immédiatement dans le point de terminaison d’analytique SQL, vous devrez peut-être attendre quelques minutes. La table SQL qui référence des données dans un autre espace de travail est créée avec un délai.

Analyser les données partitionnés

Le partitionnement des données est une technique bien connue d’optimisation de l’accès aux données dans les lacs de données. Les jeux de données partitionnés sont stockés dans les structures de dossiers hiérarchiques au format /year=<year>/month=<month>/day=<day>, où year, monthet day sont les colonnes de partitionnement. Les jeux de données partitionnés permettent un accès plus rapide aux données si les requêtes filtrent les données à l’aide des prédicats qui filtrent les données en comparant des colonnes de prédicat avec une valeur.

Un point de terminaison d’analytique SQL peut représenter des jeux de données Delta Lake partitionnés sous forme de tables SQL afin de vous permettre de les analyser.