Qu’est-ce que l’entreposage de données dans Microsoft Fabric ?

S’applique à : point de terminaison d’analytique SQL et entrepôt dans Microsoft Fabric

Microsoft Fabric fournit aux clients un produit unifié qui traite tous les aspects de leur patrimoine de données en offrant une plateforme complète de données, d’analytique et d’IA SaaS centrée sur le lac et ouverte. La base de Microsoft Fabric permet à l’utilisateur novice jusqu’au professionnel chevronné de tirer parti des charges de travail Base de données, Analytique, Messagerie, Intégration de données et Business Intelligence grâce à une expérience SaaS riche, facile à utiliser et partagée avec Microsoft OneLake comme pièce maîtresse.

Une expérience SaaS centrée sur le lac conçue pour n’importe quel niveau de compétence

Microsoft Fabric introduit un entrepôt de données centré sur le lac basé sur un moteur de traitement distribué de niveau entreprise qui permet des performances de pointe à grande échelle tout en éliminant le besoin de configuration et de gestion. Grâce à une expérience SaaS facile à utiliser étroitement intégrée à Power BI pour faciliter l’analyse et la création de rapports, Warehouse dans Microsoft Fabric fait converger le monde des lacs de données et des entrepôts dans le but de simplifier considérablement l’investissement des organisations dans leur patrimoine analytique. Les charges de travail Entrepôt de données bénéficient des fonctionnalités enrichies du moteur SQL par rapport à un format de données ouvert, ce qui permet aux clients de se concentrer sur la préparation des données, l’analyse et la création de rapports sur une seule copie de leurs données stockées dans leur Microsoft OneLake.

L’entrepôt est conçu pour n’importe quel niveau de compétence, du développeur citoyen au développeur professionnel, à l’administrateur de base de données ou à l’ingénieur données. L’ensemble complet d’expériences intégrées à l’espace de travail Microsoft Fabric permet aux clients de réduire leur temps d’insights en ayant un modèle sémantique facilement consommable et toujours connecté intégré à Power BI en mode DirectLake. Cela permet d’obtenir des performances de pointe qui garantissent que le rapport d’un client dispose toujours des données les plus récentes pour l’analyse et la création de rapports. L’interrogation entre bases de données peut être exploitée pour tirer parti rapidement et en toute transparence de plusieurs sources de données qui s’étendent sur plusieurs bases de données pour des insights rapides et sans duplication de données.

Entrepôts virtuels avec interrogation entre bases de données

Microsoft Fabric offre aux clients la possibilité de mettre en place des entrepôts virtuels contenant des données provenant de pratiquement n’importe quelle source à l’aide de raccourcis. Les clients peuvent créer un entrepôt virtuel en créant des raccourcis vers leurs données, où qu’elles se trouvent. Un entrepôt virtuel peut se composer de données OneLake, Azure Data Lake Storage ou de tout autre stockage de fournisseur cloud dans une limite unique et sans duplication de données.

Déverrouillez en toute transparence la valeur d’une variété de sources de données grâce à la richesse de l’interrogation entre bases de données dans Microsoft Fabric. L’interrogation entre bases de données permet aux clients d’exploiter rapidement et en toute transparence plusieurs sources de données pour obtenir des insights rapides et sans duplication de données. Les données stockées dans différentes sources peuvent être facilement jointes, ce qui permet aux clients de fournir des insights enrichis qui nécessitaient auparavant un effort important de la part des équipes d’intégration et d’ingénierie des données.

Les requêtes entre bases de données peuvent être créées via l’éditeur de requête visuelle, qui offre un chemin d’accès sans code aux insights sur plusieurs tables. L’éditeur de requête SQL, ou d’autres outils familiers tels que SQL Server Management Studio (SSMS), peuvent également être utilisés pour créer des requêtes entre bases de données.

Gestion autonome des charges de travail

Les entrepôts dans Microsoft Fabric tirent parti d’un moteur de traitement des requêtes distribués de pointe, qui fournit aux clients des charges de travail qui ont une limite d’isolation naturelle. Il n’y a pas de paramètres à définir avec l’allocation et l’abandon autonomes des ressources pour offrir les meilleures performances avec une mise à l’échelle et une concurrence automatiques intégrées. Une véritable isolation est obtenue en séparant les charges de travail avec des caractéristiques différentes, ce qui garantit que les travaux ETL n’interfèrent jamais avec leur analytique ad hoc et la création de rapports.

Format ouvert pour une interopérabilité transparente des moteurs

Les données de l’entrepôt sont stockées au format de fichier parquet et publiées en tant que journaux Delta Lake, ce qui permet des transactions ACID et l’interopérabilité entre moteurs qui peuvent être exploitées via d’autres charges de travail Microsoft Fabric telles que Spark, Pipelines, Power BI et Azure Data Explorer. Les clients n’ont plus besoin de créer plusieurs copies de leurs données pour les rendre disponibles aux professionnels des données avec différents ensembles de compétences. Les ingénieurs données habitués à travailler dans Python peuvent facilement tirer parti des mêmes données que celles qui ont été modélisées et servies par un professionnel de l’entrepôt de données habitué à travailler dans SQL. En parallèle, les professionnels BI peuvent rapidement et facilement tirer parti des mêmes données pour créer un ensemble complet de visualisations dans Power BI avec des performances record et sans duplication de données.

Séparation du stockage et du calcul

Le calcul et le stockage sont découplés dans un entrepôt, ce qui permet aux clients de mettre à l’échelle presque instantanément pour répondre aux demandes de leur entreprise. Cela permet à plusieurs moteurs de calcul de lire à partir de n’importe quelle source de stockage prise en charge avec une sécurité robuste et des garanties transactionnelles ACID complètes.

Ingérer, charger et transformer facilement à grande échelle

Les données peuvent être ingérées dans l’entrepôt par le biais de pipelines, de flux de données, d’interrogations de bases de données croisées ou de la commande COPY INTO. Une fois ingérées, les données peuvent être analysées par plusieurs groupes d’entreprises via des fonctionnalités telles que le partage et l’interrogation entre bases de données. Le délai d’accès aux insights est accéléré par le biais d’une expérience BI entièrement intégrée grâce à une modélisation graphique des données facile à utiliser pour l’expérience web pour interroger au sein de l’éditeur d’entrepôt.

Éléments d'entrepôt de données dans Microsoft Fabric

Il existe deux éléments d’entreposage de données distincts : le point de terminaison d’analytique SQL du Lakehouse et l’entrepôt.

Point de terminaison d’analytique SQL de Lakehouse

Un point de terminaison d’analytique SQL est un entrepôt généré automatiquement à partir d’un Lakehouse dans Microsoft Fabric. Un client peut passer de la vue « Lake » de Lakehouse (qui prend en charge l’ingénierie des données et Apache Spark) à la vue « SQL » du même Lakehouse. Le point de terminaison d’analytique SQL est en lecture seule et les données peuvent uniquement être modifiées via la vue « Lake » de Lakehouse à l’aide de Spark.

Via le point de terminaison d’analyse SQL de Lakehouse, l’utilisateur a un sous-ensemble de commandes SQL qui peuvent définir et interroger des objets de données, mais qui ne manipulent pas les données. Vous pouvez effectuer les actions suivantes dans le point de terminaison d’analytique SQL :

  • Interroger les tables qui référencent des données dans vos dossiers Delta Lake dans le lac.
  • Créer des vues, des fonctions à valeurs de tables (TVF) en ligne et des procédures pour encapsuler votre sémantique et votre logique métier dans T-SQL.
  • Gérer les autorisations sur les objets.

Dans un espace de travail Microsoft Fabric, un point de terminaison d’analytique SQL est étiqueté « Point de terminaison d’analytique SQL » sous la colonne Type. Chaque Lakehouse dispose d’un point de terminaison d’analytique SQL généré automatiquement qui peut être utilisé par le biais d’outils SQL habituels tels que SQL Server Management Studio, Azure Data Studio, l’éditeur de requête SQL Microsoft Fabric.

Capture d’écran montrant le type Point de terminaison d'analytique SQL dans l’espace de travail.

Pour commencer à utiliser le point de terminaison d’analytique SQL, consultez Mieux ensemble : le lakehouse et l’entrepôt dans Microsoft Fabric.

Entrepôt de données Synapse

Dans un espace de travail Microsoft Fabric, un Data Warehouse Synapse ou un entrepôt est intitulé « Entrepôt » sous la colonne Type. Un entrepôt prend en charge les requêtes de transaction, DDL et DML.

Capture d’écran montrant le type Entrepôt dans l’espace de travail.

Contrairement à un point de terminaison d’analytique SQL qui prend uniquement en charge les requêtes en lecture seule et la création de vues et de fichiers TVF, un entrepôt dispose d’une prise en charge transactionnelle complète de DDL et DML et est créée par un client. Un entrepôt est rempli par l’une des méthodes d’ingestion de données prises en charge telles que COPY INTO, les pipelines, les flux de données ou les options d’ingestion de bases de données croisées telles que CREATE TABLE AS SELECT (CTAS), INSERT..SELECT ou SELECT INTO.

Pour bien démarrer avec l’entrepôt, consultez Créer un entrepôt dans Microsoft Fabric.

Comparer l’entrepôt et le point de terminaison d’analyse SQL de Lakehouse

Cette section décrit les différences entre l’entrepôt et le point de terminaison d’analytique SQL dans Microsoft Fabric.

Diagramme de l’espace de travail Fabric pour l’entreposage de données, qui comprend le point de terminaison d’analytique SQL et l’entrepôt.

Le point de terminaison d’analytique SQL est un entrepôt en lecture seule généré automatiquement à partir d’un Lakehouse dans Microsoft Fabric. Les tables delta créées via Spark dans un Lakehouse sont automatiquement détectables dans le point de terminaison d’analytique SQL en tant que tables. Le point de terminaison d’analytique SQL permet aux ingénieurs de données de créer une couche relationnelle en plus des données physiques dans Lakehouse et de l’exposer à des outils d’analyse et de création de rapports à l’aide de la chaîne de connexion SQL. Les analystes de données peuvent ensuite utiliser T-SQL pour accéder aux données Lakehouse à l’aide de Synapse Data Warehouse. Utilisez le point de terminaison d’analytique SQL pour concevoir votre entrepôt pour les besoins décisionnels et servir des données.

Un entrepôt de données Synapse, ou simplement Entrepôt est un entrepôt de données « traditionnel » qui prend en charge les fonctionnalités T-SQL transactionnelles complètes comme un entrepôt de données d’entreprise. Contrairement au point de terminaison d’analyse SQL, où les tables et les données sont automatiquement créées, vous contrôlez entièrement la création de tables, le chargement, la transformation et l’interrogation de vos données dans l’entrepôt de données à l’aide du portail Microsoft Fabric ou des commandes T-SQL.

Pour plus d’informations sur l’interrogation de vos données dans Microsoft Fabric, consultez Interroger le point de terminaison d’analytique SQL ou Warehouse dans Microsoft Fabric.

Comparer les différentes fonctionnalités d’entreposage

Afin de mieux répondre à vos cas d’usage d’analytique, vous disposez d’une variété de fonctionnalités. En règle générale, l’entrepôt peut être considéré comme un sur-ensemble de toutes les autres fonctionnalités, fournissant une relation synergique entre toutes les autres offres d’analytique qui fournissent T-SQL.

Au sein de Fabric, des utilisateurs peuvent avoir besoin de choisir entre un Entrepôt, un Lakehouse et même un Datamart Power BI.

Offre Microsoft Fabric

Entrepôt

Point de terminaison d’analytique SQL de Lakehouse

Datamart Power BI


Licence

Fabric ou Power BI Premium

Fabric ou Power BI Premium

Power BI Premium uniquement


Fonctionnalités principales

Stockage de données complet conforme à ACID avec prise en charge des transactions dans T-SQL.

Lecture seule, point de terminaison d’analytique SQL généré par le système pour Lakehouse pour l’interrogation et le service T-SQL. Prend en charge l’analytique sur les tables Delta Lakehouse et les dossiers Delta Lake référencés via des raccourcis.

Entreposage de données sans code et interrogation T-SQL


Profil de développeur

Développeurs SQL ou développeurs citoyens

Ingénieurs données ou développeurs SQL

Développeur citoyen uniquement


Cas d’usage recommandé

  • Entreposage de données pour une utilisation en entreprise
  • Entreposage de données qui prend en charge l’utilisation du service, de l’unité commerciale ou du libre-service
  • Analyse structurée des données dans T-SQL avec des tables, des vues, des procédures et des fonctions et une prise en charge de SQL avancé pour BI
  • Exploration et interrogation de tables delta à partir du lakehouse
  • Mise en lots de zone de données et d’archivage pour l’analyse
  • Architecture Medallion lakehouse avec des zones pour l’analyse du bronze, de l’argent et de l’or
  • Jumelage avec l’entreposage pour les cas d’usage de l’analytique d’entreprise
  • Cas d’usage de l’entreposage de petites divisions ou d’unités commerciales
  • Cas d’usage de l’entreposage de données en libre-service
  • Zone d’atterrissage pour les flux de données Power BI et prise en charge simple de SQL pour BI

Expérience de développement

  • Éditeur d’entrepôt avec prise en charge complète des expériences d’interface utilisateur pour l’ingestion, la modélisation, le développement et l’interrogation des données T-SQL pour l’ingestion, la modélisation et l’interrogation des données
  • Prise en charge de la lecture/écriture pour les outils tiers
  • Point de terminaison d’analytique SQL Lakehouse avec prise en charge limitée de T-SQL pour les vues, les fonctions table et les requêtes SQL
  • Expériences d’interface utilisateur pour la modélisation et l’interrogation
  • Prise en charge limitée de T-SQL pour les outils tiers
  • Éditeur Datamart avec la prise en charge des expériences d’interface utilisateur et des requêtes
  • Expériences d’interface utilisateur pour l’ingestion, la modélisation et l’interrogation des données
  • Prise en charge en lecture seule des outils tiers

Fonctionnalités T-SQL

Prise en charge T-SQL complète de DQL, DML et DDL, prise en charge complète des transactions

Prise en charge T-SQL complète de DQL, pas de DML, limitée de DDL, comme les vues SQL et les fonctions à valeurs de tables

Prise en charge complète de DQL uniquement


Chargement de données

SQL, pipelines, flux de données

Spark, pipelines, flux de données, raccourcis

Flux de données uniquement


Prise en charge de la table Delta

Lit et écrit des tables Delta

Lit les tables delta

NA


Couche de stockage

Format de données ouvert - Delta

Format de données ouvert - Delta

NA


Schéma généré automatiquement dans le point de terminaison d’analytique SQL du Lakehouse

Le point de terminaison d’analyse SQL gère les tables générées automatiquement afin que les utilisateurs de l’espace de travail ne puissent pas les modifier. Les utilisateurs peuvent enrichir le modèle de base de données en ajoutant leurs propres schémas SQL, vues, procédures et autres objets de base de données.

Pour chaque table Delta de votre Lakehouse, le point de terminaison d’analytique SQL génère automatiquement une table.

Les tables du point de terminaison d’analytique SQL sont créées avec un délai. Une fois que vous avez créé ou mis à jour le dossier/la table Delta Lake dans le lac, la table d’entrepôt qui référence les données du lac n’est pas immédiatement créée/actualisée. Les modifications sont appliquées dans l’entrepôt après 5 à 10 secondes.

Pour connaître les types de données de schéma générés automatiquement pour le point de terminaison d’analyse SQL, consultez Types de données dans Microsoft Fabric.