Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Le point de terminaison SQL Analytics est une interface T-SQL optimisée pour la lecture des données Delta dans Microsoft Fabric. Cet article présente la charge de travail d’entrepôt de données de Fabric avec le point de terminaison d’analytique SQL du Lakehouse, ainsi que des scénarios d’utilisation du Lakehouse dans l’entreposage de données.
Qu’est-ce qu’un point de terminaison d'analytique SQL de Lakehouse ?
Le point de terminaison d’analytique SQL vous permet d’interroger des données dans Lakehouse à l’aide du langage T-SQL et du protocole TDS.
- Le point de terminaison d’analytique SQL expose les tables Delta de Lakehouse en tant que tables SQL que vous pouvez interroger avec T-SQL.
- Chaque table delta d’un Lakehouse est représentée sous la forme d’une table. Les données doivent être au format delta.
- Chaque Lakehouse a un point de terminaison d’analytique SQL, et chaque espace de travail peut avoir plusieurs Lakehouses. Le nombre de points de terminaison d’analytique SQL dans un espace de travail correspond au nombre d’éléments Lakehouse.
Vous n'avez pas besoin de créer un point de terminaison d'analytique SQL dans Microsoft Fabric. Un point de terminaison d’analytique SQL est automatiquement créé pour chaque lakehouse, base de données ou base de données en miroir. Un point de terminaison SQL analytique sert de capacité légère d’entrepôt de données pour leurs éléments parents, venant compléter l’architecture lakehouse de l’entrepôt. Cette architecture permet à Spark ou à la mise en miroir dans Fabric de gérer les données dans une structure de dossiers du lakehouse que le point de terminaison d’analytique SQL peut consulter.
Note
En arrière-plan, le point de terminaison d’analyse SQL utilise le même moteur que l’entrepôt pour traiter des requêtes SQL hautes performances et à faible latence.
Découverte automatique des métadonnées
Un processus transparent lit les journaux Delta à partir du /Tables dossier et garantit que les métadonnées SQL pour les tables, telles que les statistiques, sont toujours à jour. Aucune action de l’utilisateur n’est nécessaire et il n’est pas nécessaire d’importer, de copier des données ou de configurer l’infrastructure. Pour plus d’informations, consultez Schéma généré automatiquement dans le point de terminaison d’analytique SQL.
Scénarios activés par Lakehouse pour l’entreposage de données
Dans Fabric, nous proposons un seul entrepôt.
Le Lakehouse, avec son point de terminaison d’analytique SQL, alimenté par l’entrepôt, peut simplifier l’arbre de décision traditionnel des modèles d’architecture batch, streaming ou lambda. Avec un entrepôt, l'entrepôt-lac permet de nombreux scénarios d'analytique additive. Cette section explique comment utiliser un Lakehouse et un entrepôt pour une stratégie d’analytique optimale.
Analyse avec la couche or de votre Fabric Lakehouse
Une stratégie connue pour l’organisation des données de lac est une architecture de médaillon. Cette stratégie organise les fichiers en couches brutes (bronze), consolidées (argent) et affinées (or). Vous pouvez utiliser un point de terminaison d'analytique SQL pour analyser les données dans la couche d'or de l'architecture de médaillon si les fichiers sont stockés au format Delta Lake, même s'ils sont stockés en dehors du Microsoft Fabric OneLake.
Utilisez les raccourcis OneLake pour faire référence à des dossiers de niveau Gold dans des comptes de stockage Azure Data Lake externes gérés par les moteurs Synapse Spark ou Azure Databricks.
Vous pouvez également ajouter des entrepôts de données comme solutions orientées par domaine métier ou par sujet pour des domaines métier spécifiques pouvant avoir des exigences analytiques sur mesure.
Si vous choisissez de conserver vos données dans Fabric, elles sont toujours ouvertes et accessibles via des API, le format Delta et, bien sûr, T-SQL.
Interroger vos tables delta comme un service depuis Lakehouse et d'autres éléments de OneLake
Les analystes, les scientifiques des données et les ingénieurs données peuvent avoir besoin d’interroger des données dans un lac de données. Dans Fabric, cette expérience de bout en bout est entièrement SaaSified.
OneLake est un lac de données unique, unifié et logique pour l'ensemble de l'organisation. OneLake est OneDrive pour les données. OneLake peut contenir plusieurs espaces de travail, par exemple, le long de vos divisions organisationnelles. Chaque élément de Fabric rend les données accessibles via OneLake.
Les données d’un Microsoft Fabric Lakehouse sont physiquement stockées dans OneLake avec la structure de dossiers suivante :
- Le
/Filesdossier contient des fichiers bruts et non consolidés (bronze) que les ingénieurs données doivent traiter avant l’analyse. Les fichiers peuvent se trouver dans différents formats tels que CSV, Parquet, différents types d’images, etc. - Le
/Tablesdossier contient des données affinées et consolidées (gold), prêtes à être utilisées pour l’analyse métier. Les données consolidées sont au format Delta Lake.
Un point de terminaison d’analytique SQL peut lire des données dans le dossier /tables au sein de OneLake. L’analyse est aussi simple que l’interrogation du point de terminaison d’analytique SQL du Lakehouse. Avec l’entrepôt, vous obtenez également des requêtes inter-bases de données et la possibilité de basculer en toute transparence des requêtes en lecture seule vers la création d’une logique métier supplémentaire en plus de vos données OneLake avec Fabric Data Warehouse.
Ingénieurs de données avec Spark et service avec SQL
Les entreprises pilotées par les données doivent assurer la synchronisation en quasi-temps réel de leurs systèmes de back-end et d’analytique avec les applications orientées clients. L’impact des transactions doit être reflété avec précision dans les processus de bout en bout, les applications associées et les systèmes OLTP (Online Transaction Processing).
Dans Fabric, vous pouvez utiliser Spark Streaming ou l'ingénierie des données pour gérer vos données. Vous pouvez utiliser le point de terminaison d’analytique SQL du Lakehouse pour valider la qualité des données et pour les processus T-SQL existants. Cela peut être effectué dans une architecture en médaillon ou dans plusieurs couches de votre Lakehouse, en servant des données de bronze, d’argent, d’or ou de mise en scène, organisées et affinées. Vous pouvez personnaliser les dossiers et les tables créés via Spark pour répondre à vos besoins métier et d’ingénierie des données. Lorsque vous êtes prêt, un entrepôt peut servir toutes vos applications décisionnelles en aval et d'autres cas d'usage d'analytique, sans copier de données, en utilisant des vues ou en affinant les données à l'aide de CREATE TABLE AS SELECT (CTAS), de procédures stockées et d'autres commandes DML / DDL.
Intégration à la couche d’or d’Open Lakehouse
Un point de terminaison SQL analytique ne se limite pas à l’analyse des données uniquement dans Fabric Lakehouse. À l’aide d’un point de terminaison SQL analytique, vous pouvez analyser les données du lac dans n’importe quel lakehouse avec Synapse Spark, Azure Databricks ou tout autre moteur d’ingénierie des données axé sur le lac. Vous pouvez stocker les données dans Azure Data Lake Storage ou Amazon S3.
Vous pouvez toujours accéder à cette intégration bidirectionnelle étroite avec le Fabric Lakehouse via n’importe quel moteur à l’aide d’API ouvertes, du format Delta et bien sûr de T-SQL.
Virtualisation des données des lacs de données externes avec des raccourcis
Utilisez les raccourcis OneLake shortcuts pour référencer des dossiers gold dans des comptes de stockage Azure Data Lake externes gérés par les moteurs Synapse Spark ou Azure Databricks, ainsi que toute table Delta stockée dans Amazon S3.
Vous pouvez analyser n’importe quel dossier référencé par un raccourci à partir d’un point de terminaison d’analyse SQL et créer une table SQL pour les données référencées. Utilisez la table SQL pour exposer des données dans des lacs de données gérés en externe et activer l’analytique sur celles-ci.
Ce raccourci sert d’entrepôt virtuel que vous pouvez exploiter depuis un entrepôt pour répondre à des besoins d’analyses en aval supplémentaires, ou l’interroger directement.
Pour analyser des données dans des comptes de stockage data lake externes, procédez comme suit :
- Créez un raccourci qui référence un dossier dans Azure Data Lake Storage ou un compte Amazon S3. Une fois que vous avez entré les informations de connexion et les informations d’identification, un raccourci s’affiche dans lakehouse.
- Basculez vers le point de terminaison d’analytique SQL du Lakehouse et recherchez une table SQL dont le nom correspond à celui du raccourci. Cette table SQL fait référence au dossier dans ADLS ou S3.
- Interrogez la table SQL qui référence des données dans ADLS ou S3. Utilisez la table comme vous le feriez pour n’importe quelle autre table dans le point de terminaison d’analyse SQL. Vous pouvez joindre des tables qui référencent des données dans différents comptes de stockage.
Note
Si la table SQL ne s’affiche pas immédiatement dans le point de terminaison d’analyse SQL, patientez quelques minutes. La table SQL qui référence des données dans le compte de stockage externe est créée avec un délai.
Analyser les données archivées ou historiques dans un lac de données
Le partitionnement des données est une technique bien connue d’optimisation de l’accès aux données dans les lacs de données. Stockez des jeux de données partitionnés dans des structures de dossiers hiérarchiques au format /year=<year>/month=<month>/day=<day>, où yearmonth, et day sont les colonnes de partitionnement. Cette structure conserve les données historiques séparées logiquement et permet aux moteurs de calcul de lire les données selon les besoins avec un filtrage performant, plutôt que de lire l’intégralité du répertoire et tous les dossiers et fichiers au sein.
Les données partitionnées permettent un accès plus rapide lorsque les requêtes appliquent un filtre sur des prédicats qui comparent les colonnes de prédicat à une valeur.
Un point de terminaison d’analytique SQL peut facilement lire ce type de données sans nécessiter de configuration. Par exemple, vous pouvez utiliser n’importe quelle application pour archiver des données dans un lac de données, notamment SQL Server 2022 ou Azure SQL Managed Instance. Après avoir partitionné des données et les avoir stockées dans un lac de données à des fins d’archivage à l’aide de tables externes, un point de terminaison d’analytique SQL peut lire les tables Delta Lake partitionnées comme des tables SQL et permettre à votre organisation de les analyser. Cette approche réduit le coût total de possession, réduit la duplication des données et éclaire les big data, l’IA et d’autres scénarios d’analytique.
Vous pouvez également utiliser des requêtes de voyage temporel pour interroger rapidement les versions antérieures des données. Le voyage dans le temps est une fonctionnalité économique et efficace pour interroger les états passés des données avec des requêtes T-SQL. Pour un point de terminaison d’analytique SQL Lakehouse, les déplacements temporels sont limités par les paramètres de rétention du vide. Pour commencer, consultez Procédure : interroger des données à l’aide du voyage dans le temps au niveau de l’instruction.
Virtualisation des données Fabric avec des raccourcis
Dans Fabric, les espaces de travail vous permettent de séparer les données en fonction des exigences métier, géographiques ou réglementaires complexes.
Un point de terminaison d’analytique SQL vous permet de laisser les données en place et de les analyser quand même dans l’entrepôt ou le Lakehouse, même dans d’autres espaces de travail Microsoft Fabric, par le biais d’une virtualisation fluide. Chaque Microsoft Fabric Lakehouse stocke des données dans OneLake.
Les raccourcis vous permettent de référencer des dossiers dans n’importe quel emplacement OneLake.
Chaque entrepôt Microsoft Fabric stocke les données de table dans OneLake. Si une table est uniquement en ajout, les données de la table sont exposées en tant que données Delta Lake dans OneLake. Les raccourcis vous permettent de référencer des dossiers dans n’importe quel OneLake où les tables d’entrepôt sont exposées.
Partage et requêtes entre espaces de travail
Bien que les espaces de travail vous permettent de séparer les données en fonction d’exigences métier, géographiques ou réglementaires complexes, vous devez parfois faciliter le partage entre ces lignes pour des besoins d’analyse spécifiques.
Un point de terminaison d’analytique SQL du Lakehouse peut faciliter le partage de données entre les services et les utilisateurs, car un utilisateur peut apporter sa propre capacité et son propre entrepôt. Les espaces de travail organisent des services, des unités commerciales ou des domaines analytiques. En utilisant des raccourcis, les utilisateurs peuvent trouver les données de l’entrepôt ou de Lakehouse. Les utilisateurs peuvent effectuer instantanément leurs propres analyses personnalisées à partir des mêmes données partagées. En plus de faciliter les rétrofacturations entre services et la répartition de l’utilisation, cette approche constitue une version sans copie des données.
Le point de terminaison d’analytique SQL permet d’interroger n’importe quelle table et d’en faciliter le partage. Vous pouvez ajouter des contrôles à l’aide de rôles d’espace de travail et de rôles de sécurité pour répondre à des exigences métier supplémentaires.
Pour activer l’analytique des données inter-espaces de travail, procédez comme suit :
- Créez un raccourci OneLake qui référence une table ou un dossier dans un espace de travail auquel vous pouvez accéder.
- Choisissez un Lakehouse ou un Warehouse qui contient une table ou un dossier Delta Lake que vous souhaitez analyser. Lorsque vous sélectionnez une table ou un dossier, un raccourci s’affiche dans lakehouse.
- Basculez vers le point de terminaison d’analytique SQL du Lakehouse et recherchez la table SQL dont le nom correspond à celui du raccourci. Cette table SQL fait référence au dossier d’un autre espace de travail.
- Interrogez la table SQL qui référence des données dans un autre espace de travail. Vous pouvez utiliser la table comme vous le feriez pour n’importe quelle autre table dans le point de terminaison d’analyse SQL. Vous pouvez joindre les tables qui référencent des données dans différents espaces de travail.
Pour plus d’informations sur la sécurité dans le point de terminaison d’analytique SQL, consultez La sécurité OneLake pour les points de terminaison d’analytique SQL.
Note
Si la table SQL n’apparaît pas immédiatement dans le point de terminaison d’analyse SQL, patientez quelques minutes. La table SQL qui référence des données dans un autre espace de travail est créée avec un délai.
Analyser les données partitionnées
Le partitionnement des données est une technique bien connue d’optimisation de l’accès aux données dans les lacs de données. Vous stockez des jeux de données partitionnés dans des structures de dossiers hiérarchiques au format /year=<year>/month=<month>/day=<day>, où yearmonth, et day sont les colonnes de partitionnement. Les jeux de données partitionnés permettent un accès plus rapide aux données si les requêtes utilisent des prédicats qui filtrent les données en comparant les colonnes de prédicat à une valeur.
Un point de terminaison d’analytique SQL peut représenter des jeux de données Delta Lake partitionnés sous forme de tables SQL afin de vous permettre de les analyser.
Pour plus d'informations et d'exemples sur l'interrogation de données externes, consultez l'utilisation de Fabric Data Warehouse ou du point de terminaison SQL Analytics pour interroger des fichiers de lac de données externes. Pour obtenir un exemple et un cas d’usage pour interroger des fichiers Parquet partitionnés, consultez Interroger les données partitionnées.
Analyser des données dans Lakehouse, Warehouse ou Eventhouse
Les pages principales de Lakehouse et de Warehouse incluent le point de terminaison Eventhouse dans le cadre du menu Analyser les données. L'interface Eventhouse propose une expérience de requête optimisée par Eventhouse directement sur les données du Lakehouse et de l'entrepôt, sans duplication ni synchronisation manuelle.
Lorsque vous activez le point de terminaison Eventhouse, une base de données Eventhouse et KQL sont automatiquement créées en tant qu’éléments enfants de la source Lakehouse ou Warehouse, avec la synchronisation de schéma gérée en arrière-plan. Le point de terminaison reflète toujours le schéma actuel des données sources, ce qui permet l’accès analytique en temps quasi réel.
Cette intégration rend Eventhouse une extension naturelle de la source de données, plutôt qu’un système distinct que vous devez configurer et gérer. Pour plus d’informations sur le point de terminaison Eventhouse, consultez Activer le point de terminaison Eventhouse pour lakehouse et warehouse.
Contenu connexe
- Qu’est-ce qu’un lakehouse dans Microsoft Fabric ?
- Guide de décision Microsoft Fabric : choisir entre l’entrepôt de données et Lakehouse
- Apporter vos données à OneLake avec Lakehouse
- Modèles sémantiques Power BI dans Microsoft Fabric
- Options pour obtenir des données dans la Fabric Lakehouse
- Comment copier des données à l’aide de l’activité de copie
- Déplacer des données d’Azure SQL DB vers Lakehouse via l’Assistant Copie
- Connectivité à l’entreposage de données dans Microsoft Fabric
- Point de terminaison d'analyse SQL du Lakehouse
- Interroger le point de terminaison d’analytique SQL ou l’entrepôt dans Microsoft Fabric