OneLake, OneDrive pour les données
OneLake est un lac de données logique unique et unifié pour l’ensemble de la organization. Comme OneDrive, OneLake est fourni automatiquement avec chaque locataire Microsoft Fabric et est conçu pour être le seul emplacement pour toutes vos données d’analyse. OneLake apporte aux clients :
- Un lac de données pour l’ensemble de la organization
- Une copie des données à utiliser avec plusieurs moteurs analytiques
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.
Un lac de données pour l’ensemble de la organization
Avant OneLake, il était plus facile pour les clients de créer plusieurs lacs pour différents groupes d’entreprises plutôt que de collaborer sur un seul lac, même avec la surcharge liée à la gestion de plusieurs ressources. OneLake se concentre sur la suppression de ces défis en améliorant la collaboration. Chaque locataire client a exactement un OneLake. Il ne peut jamais y en avoir plus d’un et si vous avez Fabric, il ne peut jamais y avoir zéro. OneLake est approvisionné automatiquement avec chaque locataire Fabric sans ressources supplémentaires à configurer ou à gérer.
Régi par défaut avec la propriété distribuée pour la collaboration
Le concept de locataire est un avantage unique d’un service SaaS. Le fait de savoir où commence et se termine le organization d’un client fournit une limite de gouvernance et de conformité naturelle, qui est finalement sous le contrôle d’un administrateur de locataire. Toutes les données qui arrivent dans OneLake sont régies par défaut. Bien que toutes les données soient dans les limites définies par l’administrateur du locataire, il est important que cet administrateur ne devienne pas un gardien central empêchant d’autres parties du organization de contribuer à OneLake. Dans un locataire, vous pouvez créer un nombre quelconque d’espaces de travail. Les espaces de travail permettent à différentes parties du organization de distribuer les stratégies de propriété et d’accès. Chaque espace de travail fait partie d’une capacité liée à une région spécifique et facturée séparément.
Dans un espace de travail, vous pouvez créer des éléments de données et toutes les données dans OneLake sont accessibles via des éléments de données. À l’instar de la façon dont Office stocke des fichiers Word, Excel et PowerPoint dans OneDrive, Fabric stocke des lakehouses, des entrepôts et d’autres éléments dans OneLake. Les éléments peuvent offrir des expériences personnalisées pour chaque personnage, telles que l’expérience de développeur Spark dans un lakehouse. Pour plus d’informations sur la prise en main de OneLake, consultez Création d’un lakehouse avec OneLake.
Ouvrir à tous les niveaux
OneLake est ouvert à tous les niveaux. Basé sur Azure Data Lake Storage Gen2, OneLake peut prendre en charge n’importe quel type de fichier, structuré ou non. Tous les éléments de données Fabric tels que les entrepôts de données et les lakehouses stockent automatiquement leurs données dans OneLake au format delta parquet. Cela signifie que lorsqu’un ingénieur données charge des données dans un lakehouse à l’aide de Spark et qu’un développeur SQL dans un entrepôt de données entièrement transactionnel utilise T-SQL pour charger des données, tout le monde contribue toujours à créer le même lac de données. Toutes les données tabulaires sont stockées dans OneLake au format delta Parquet. OneLake prend en charge les mêmes API et sdk ADLS Gen2 pour être compatibles avec les applications ADLS Gen2 existantes, notamment Azure Databricks. Les données dans OneLake peuvent être traitées comme s’il s’agissait d’un grand compte de stockage ADLS pour l’ensemble du organization. Chaque espace de travail apparaît en tant que conteneur dans ce compte de stockage. Différents éléments de données apparaissent sous la forme de dossiers sous ces conteneurs.
Pour plus d’informations sur les API et les points de terminaison, consultez Accès et API OneLake. Pour obtenir des exemples d’intégrations de OneLake à Azure, consultez les articles Azure Synapse Analytics, Explorateur stockage Azure, Azure Databricks et Azure HDInsight.
Explorateur de fichiers OneLake pour Windows
OneLake est OneDrive pour les données. Tout comme OneDrive, les données OneLake peuvent être facilement explorées à partir de Windows à l’aide de l’explorateur de fichiers OneLake pour Windows. Directement dans Windows, vous pouvez naviguer dans tous vos espaces de travail, éléments de données, charger, télécharger ou modifier facilement des fichiers comme vous pouvez le faire dans Office. L’explorateur de fichiers OneLake simplifie les lacs de données en les mettant entre les mains d’utilisateurs professionnels, même non techniques. Pour plus d’informations, consultez Explorateur de fichiers OneLake.
Une seule copie des données
OneLake vise à vous donner la valeur maximale possible d’une copie unique de données sans déplacement ou duplication de données. Vous n’aurez plus besoin de copier des données simplement pour les utiliser avec un autre moteur ou pour décomposer les silos afin que les données puissent être analysées avec d’autres données.
Les raccourcis vous permettent de connecter des données entre des domaines métier sans déplacement de données
Les raccourcis permettent à vos organization de partager facilement des données entre des utilisateurs et des applications sans avoir à déplacer et à dupliquer inutilement des informations. Lorsque les équipes travaillent indépendamment dans des espaces de travail distincts, les raccourcis vous permettent de combiner des données dans différents groupes d’entreprise et domaines dans un produit de données virtuel pour répondre aux besoins spécifiques d’un utilisateur. Un raccourci est une référence aux données stockées dans d’autres emplacements de fichiers. Ces emplacements de fichiers peuvent se trouver dans le même espace de travail ou dans différents espaces de travail, dans OneLake ou externes à OneLake dans ADLS ou S3. Quel que soit l’emplacement, la référence donne l’impression que les fichiers et dossiers sont stockés localement.
Pour plus d’informations sur l’utilisation des raccourcis, consultez Raccourcis OneLake.
Une copie de données avec plusieurs moteurs analytiques
Bien que les applications puissent avoir une séparation du stockage et de l’informatique, les données sont souvent optimisées pour un seul moteur, ce qui rend difficile la réutilisation des mêmes données pour plusieurs applications. Avec Fabric, les différents moteurs analytiques (T-SQL, Spark, Analysis Services, etc.) stockent les données au format parquet delta ouvert pour vous permettre d’utiliser les mêmes données sur plusieurs moteurs. Il n’est plus nécessaire de copier des données simplement pour les utiliser avec un autre moteur. Vous êtes toujours en mesure de choisir le meilleur moteur pour le travail que vous essayez d’effectuer. Par exemple, imaginez que vous avez une équipe d’ingénieurs SQL qui crée un entrepôt de données entièrement transactionnel. Ils peuvent utiliser le moteur T-SQL et toute la puissance de T-SQL pour créer des tables, transformer et charger des données dans des tables. Si un scientifique des données souhaite utiliser ces données, il n’a plus besoin de passer par un pilote Spark/SQL spécial. Toutes les données sont stockées dans OneLake au format delta Parquet. Les scientifiques des données peuvent utiliser toute la puissance du moteur Spark et de ses bibliothèques open source directement sur les données.
Les utilisateurs professionnels peuvent créer des rapports Power BI directement sur OneLake à l’aide du nouveau mode lac direct dans le moteur Analysis Services. Le moteur Analysis Services est ce qui alimente les jeux de données Power BI et a toujours proposé deux modes d’accès aux données, l’importation et l’interrogation directe. Le mode lac direct offre aux utilisateurs toute la vitesse d’importation sans avoir à copier les données, en combinant le meilleur de l’importation et de la requête directe. En savoir plus sur le lac direct : https://aka.ms/DirectLake.
Exemple de diagramme montrant le chargement de données à l’aide de Spark, l’interrogation à l’aide de T-SQL et l’affichage des données dans un rapport Power BI.