Qu’est-ce que Science des données dans Microsoft Fabric ?

Pour l’enrichissement des données et les insights métier, Microsoft Fabric offre des expériences de science des données qui permettent aux utilisateurs de créer des flux de travail de science des données de bout en bout. Les charges de travail de science des données fonctionnent directement sur les données d’entreprise régies dans OneLake. Vous pouvez donc accéder aux jeux de données organisés, aux données partagées et aux prédictions sans déplacer de données entre les systèmes. Pour commencer, consultez le didacticiel de bout en bout de la science des données.

Vous pouvez effectuer un large éventail d’activités dans l’ensemble du processus de science des données :

Les utilisateurs de Microsoft Fabric peuvent accéder à une page d’accueil Data Science. Ensuite, ils peuvent découvrir et accéder à différentes ressources pertinentes, comme illustré dans la capture d’écran suivante :

La plupart des projets Machine Learning suivent le processus de science des données. À un niveau élevé, ce processus implique les étapes suivantes :

Cet article décrit les fonctionnalités de Microsoft Fabric Science des données du point de vue du processus de science des données. Pour chaque étape du processus de science des données, cet article résume les fonctionnalités de Microsoft Fabric qui peuvent vous aider.

Formulation et idéation du problème

Les utilisateurs Science des données de Microsoft Fabric travaillent sur la même plateforme que les utilisateurs professionnels et les analystes. Le partage de données et la collaboration deviennent ainsi plus transparents entre différents rôles. Les analystes peuvent facilement partager des rapports et des jeux de données Power BI avec des professionnels de la science des données. La facilité de collaboration entre les rôles dans Microsoft Fabric rend les transitions plus fluides au cours de la phase de définition du problème. Le partage de données interlocataire dans OneLake permet une collaboration multi-organisation, ce qui permet aux équipes de science des données d’accéder aux jeux de données régis partagés par des partenaires externes ou des filiales.

Découverte et prétraitement des données

Les utilisateurs de Microsoft Fabric peuvent interagir avec les données dans OneLake à l’aide de la ressource Lakehouse. Pour parcourir et interagir avec les données, Lakehouse s’attache facilement à un bloc-notes. Les utilisateurs peuvent facilement lire les données d’un Lakehouse directement dans un dataframe Pandas. Lors de l'exploration, la lecture fluide des données de OneLake devient alors possible.

Les raccourcis OneLake étendent cette fonctionnalité en fournissant un accès sans copie aux données stockées dans des systèmes externes ou partagées à partir d’autres espaces de travail et locataires Fabric. Vous pouvez attacher un raccourci à un lakehouse et lire les données référencées dans les notebooks sans les dupliquer ni passer par un processus ETL (Extract, Transform, Load).

Un ensemble puissant d’outils existe pour l’ingestion des données et les pipelines d’orchestration des données avec des pipelines d’intégration de données, une partie intégrée en mode natif de Microsoft Fabric. Les pipelines faciles à générer peuvent accéder aux données et les transformer dans un format que le Machine Learning peut consommer.

Exploration des données

Une partie importante du processus de Machine Learning implique de comprendre les données par le biais de l’exploration et de la visualisation.

En fonction de l’emplacement de stockage des données, Microsoft Fabric propose des outils permettant d’explorer et de préparer les données pour l’analytique et le Machine Learning. Les blocs-notes eux-mêmes deviennent des outils d’exploration de données efficaces et efficaces.

Apache Spark et Python pour la préparation des données

Microsoft Fabric peut transformer, préparer et explorer vos données à grande échelle. Avec Spark, les utilisateurs peuvent utiliser des outils PySpark/Python, Scala et SparkR/SparklyR pour prétraiter les données à grande échelle. De puissantes bibliothèques de visualisation open source peuvent améliorer l’expérience d’exploration des données pour de meilleures compréhensions des données.

Data Wrangler pour un nettoyage transparent des données

Pour utiliser Data Wrangler, l’interface Notebook de Microsoft Fabric a ajouté une fonctionnalité d’outil de code qui prépare les données et génère du code Python. Cette expérience facilite l’accélération des tâches fastidieuses et banales , par exemple le nettoyage des données. Avec cela, vous pouvez également générer l’automatisation et la répétabilité par le biais du code généré. Pour en savoir plus sur Data Wrangler, consultez la section Data Wrangler de ce document.

Expérimentation et modélisation ML

Avec des outils tels que PySpark/Python et SparklyR/R, les notebooks peuvent gérer l'entraînement des modèles de machine learning. Les algorithmes et bibliothèques Machine Learning peuvent aider à entraîner des modèles Machine Learning. Les outils de gestion de bibliothèque peuvent installer ces bibliothèques et algorithmes. Les utilisateurs peuvent ensuite utiliser des bibliothèques machine learning populaires pour suivre leur formation de modèle ML dans Microsoft Fabric. En outre, les bibliothèques populaires comme Scikit Learn peuvent également développer des modèles.

Les expériences et les exécutions MLflow peuvent suivre l’entraînement du modèle ML. Pour consigner des expériences et des modèles, Microsoft Fabric offre une expérience MLflow intégrée qui prend en charge l’interaction. En savoir plus sur l’utilisation de MLflow pour suivre les expériences et gérer des modèles dans Microsoft Fabric.

SynapseML

Microsoft possède et exploite la bibliothèque open source SynapseML (anciennement MMLSpark). Il simplifie la création de pipelines de machine learning hautement extensibles. En tant qu’écosystème d’outils, il étend l’infrastructure Apache Spark dans plusieurs nouvelles directions. SynapseML unifie plusieurs frameworks Machine Learning existants et de nouveaux algorithmes Microsoft en une API unique et évolutive. La bibliothèque SynapseML open source inclut un écosystème riche d’outils ML pour le développement de modèles prédictifs et utilise des modèles IA préentraînés à partir d’Outils Foundry. Pour plus d’informations, consultez la ressource SynapseML .

Enrichir et opérationnaliser

Les notebooks peuvent gérer le calcul par lots des scores des modèles de machine learning avec des bibliothèques open source pour la prédiction. Ils peuvent également gérer la fonction de prédiction Spark universelle scalable de Microsoft Fabric. Cette fonction prend en charge les modèles empaquetés MLflow dans le registre de modèles Microsoft Fabric.

Obtenir des informations

Dans Microsoft Fabric, vous pouvez facilement écrire des valeurs prédites dans OneLake. À partir de là, les rapports Power BI peuvent les consommer en toute transparence avec le mode Power BI Direct Lake, qui lit les données directement à partir de OneLake sans les copier dans le modèle sémantique. Ce modèle d’accès sans copie conserve les prédictions à jour et élimine le déplacement redondant des données. Les praticiens de la science des données peuvent ensuite facilement partager les résultats de leur travail avec les parties prenantes et simplifier l’opérationnalisation.

Vous pouvez utiliser les fonctionnalités de planification de notebooks pour programmer l'exécution de notebooks qui contiennent un scoring par lots. Vous pouvez également planifier l'évaluation par lots dans le cadre d’activités de pipeline ou de jobs Spark. Avec le mode Direct Lake dans Microsoft Fabric, Power BI obtient automatiquement les dernières prédictions sans avoir besoin de chargements de données ou d’actualisations.

Exploration des données avec le lien sémantique

Les scientifiques des données et les analystes métier passent beaucoup de temps à essayer de comprendre, nettoyer et transformer des données avant de commencer une analyse significative. Les analystes métier travaillent généralement avec des modèles sémantiques et encodent leur connaissance du domaine et leur logique métier dans les mesures Power BI. En revanche, les scientifiques des données peuvent travailler avec les mêmes données, mais utilisent généralement un autre environnement de code ou langage. Avec un lien sémantique, les scientifiques des données peuvent établir une connexion entre les modèles sémantiques Power BI et la science des données Synapse dans l’expérience Microsoft Fabric via la bibliothèque Python SemPy. Pour simplifier l’analytique des données, SemPy capture et utilise la sémantique des données lorsque les utilisateurs effectuent différentes transformations sur les modèles sémantiques. Lorsque les scientifiques des données utilisent un lien sémantique, ils peuvent

éviter la réimplémentation de la logique métier ainsi que des connaissances de domaine dans leur code
accéder et utiliser facilement des mesures Power BI dans leur code
utiliser la sémantique pour alimenter de nouvelles expériences , par exemple, des fonctions sémantiques
explorer et valider des dépendances fonctionnelles et des relations entre les données

Lorsque les organisations utilisent SemPy, elles peuvent s’attendre à

une productivité accrue et une collaboration plus rapide entre les équipes qui opèrent sur les mêmes jeux de données
collaboration croisée accrue entre les équipes d'intelligence d'affaires et d'intelligence artificielle
réduction de l’ambiguïté et d’une courbe d’apprentissage plus facile lors de l’intégration à un nouveau modèle ou à un nouveau jeu de données

Pour plus d’informations sur le lien sémantique, consultez Qu’est-ce que le lien sémantique ?.

Consultez les didacticiels de science des données pour commencer à utiliser des exemples de science des données de bout en bout
Visitez Data Wrangler pour plus d’informations sur la préparation et le nettoyage des données avec Data Wrangler
Visitez l’expérience Machine Learning pour en savoir plus sur le suivi des expériences
Visitez le modèle Machine Learning pour en savoir plus sur la gestion des modèles
Visitez les modèles score avec PREDICT pour en savoir plus sur le scoring par lots avec Predict
Servir les prédictions de Lakehouse dans Power BI avec Direct Lake

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-31