Qu’est-ce que Science des données dans Microsoft Fabric ?

Important

Microsoft Fabric est en préversion.

Microsoft Fabric offre des expériences Science des données pour permettre aux utilisateurs d’effectuer des workflows de science des données de bout en bout à des fins d’enrichissement des données et d’insights métier. Vous pouvez effectuer un large éventail d’activités dans l’ensemble du processus de science des données, allant de l’exploration, de la préparation et du nettoyage des données à l’expérimentation, à la modélisation, au scoring des modèles et à la distribution d’insights prédictifs aux rapports décisionnels.

Les utilisateurs de Microsoft Fabric peuvent accéder à une page d’accueil Science des données. À partir de là, ils peuvent découvrir et accéder à diverses ressources pertinentes. Par exemple, ils peuvent créer des expériences, des modèles et des notebooks d’apprentissage automatique. Ils peuvent également importer des notebooks existants sur la page d’accueil Science des données.

Capture d’écran de la page d’accueil science des données.

Vous savez peut-être comment fonctionne un processus de science des données classique. En tant que processus bien connu, la plupart des projets machine learning le suivent.

À un niveau élevé, le processus implique les étapes suivantes :

  • Formulation et idéation du problème
  • Découverte et prétraitement des données
  • Expérimentation et modélisation
  • Enrichir et opérationnaliser
  • Obtenir des insights

Diagramme du processus de science des données.

Cet article décrit les fonctionnalités de microsoft Fabric Science des données du point de vue du processus de science des données. Pour chaque étape du processus de science des données, cet article résume les fonctionnalités de Microsoft Fabric qui peuvent vous aider.

Formulation et idéation du problème

Science des données utilisateurs de Microsoft Fabric travaillent sur la même plateforme que les utilisateurs professionnels et les analystes. Le partage de données et la collaboration deviennent ainsi plus transparents entre différents rôles. Les analystes peuvent facilement partager des rapports et des jeux de données Power BI avec des professionnels de la science des données. La facilité de collaboration entre les rôles dans Microsoft Fabric facilite considérablement les remises pendant la phase de formulation du problème.

Découverte et prétraitement des données

Les utilisateurs de Microsoft Fabric peuvent interagir avec des données dans OneLake à l’aide de l’élément Lakehouse. Lakehouse s’attache facilement à un notebook pour parcourir et interagir avec les données.

Les utilisateurs peuvent facilement lire les données d’un Lakehouse directement dans un dataframe Pandas. Pour l’exploration, cela permet de lire des données transparentes à partir de One Lake.

Il existe un ensemble puissant d’outils disponibles pour l’ingestion des données et les pipelines d’orchestration des données avec des pipelines d’intégration de données, une partie intégrée en mode natif de Microsoft Fabric. Les pipelines de données faciles à créer peuvent accéder aux données et les transformer dans un format que le Machine Learning peut utiliser.

Exploration des données

Une partie importante du processus d’apprentissage automatique consiste à comprendre les données par le biais de l’exploration et de la visualisation.

Selon l’emplacement de stockage des données, Microsoft Fabric propose un ensemble d’outils différents pour explorer et préparer les données pour l’analytique et le Machine Learning. Les notebooks deviennent l’un des moyens les plus rapides de commencer à explorer les données.

Apache Spark et Python pour la préparation des données

Microsoft Fabric offre des fonctionnalités pour transformer, préparer et explorer vos données à grande échelle. Avec Spark, les utilisateurs peuvent tirer parti des outils PySpark/Python, Scala et SparkR/SparklyR pour le prétraitement des données à grande échelle. De puissantes bibliothèques de visualisation open source peuvent améliorer l’expérience d’exploration des données pour mieux comprendre les données.

Data Wrangler pour un nettoyage transparent des données

L’expérience du notebook Microsoft Fabric a ajouté une fonctionnalité permettant d’utiliser Data Wrangler, un outil de code qui prépare les données et génère du code Python. Cette expérience facilite l’accélération des tâches fastidieuses et banales, par exemple le nettoyage des données et la création de la répétabilité et de l’automatisation par le biais du code généré. Pour en savoir plus sur Data Wrangler, consultez la section Data Wrangler de ce document.

Expérimentation et modélisation ML

Avec des outils tels que PySpark/Python, SparklyR/R, les notebooks peuvent gérer l’apprentissage des modèles Machine Learning.

Les bibliothèques et algorithmes ML peuvent aider à former des modèles Machine Learning. Les outils de gestion de bibliothèque peuvent installer ces bibliothèques et algorithmes. Les utilisateurs ont donc la possibilité de tirer parti d’une grande variété de bibliothèques de Machine Learning populaires pour suivre leur formation de modèle ML dans Microsoft Fabric.

En outre, les bibliothèques populaires comme Scikit Learn peuvent également développer des modèles.

Les expériences et les exécutions MLflow peuvent suivre l’entraînement du modèle ML. Microsoft Fabric offre une expérience MlFlow intégrée avec laquelle les utilisateurs peuvent interagir pour enregistrer des expériences et des modèles. En savoir plus sur l’utilisation de MLflow pour suivre des expériences et gérer des modèles dans Microsoft Fabric.

SynapseML

La bibliothèque open source SynapseML (anciennement MMLSpark) que Microsoft possède et gère simplifie la création de pipelines Machine Learning hautement évolutifs. En tant qu’écosystème d’outils, il étend l’infrastructure Apache Spark dans plusieurs nouvelles directions. SynapseML unifie plusieurs frameworks de Machine Learning existants et de nouveaux algorithmes Microsoft dans une API unique et évolutive. La bibliothèque open source SynapseML comprend un riche écosystème d’outils ML pour le développement de modèles prédictifs, ainsi que pour tirer parti des modèles IA préentraînés d’Azure Cognitive Services. En savoir plus sur SynapseML.

Enrichir et opérationnaliser

Les notebooks peuvent gérer le scoring par lots de modèles Machine Learning avec des bibliothèques open source pour la prédiction, ou la fonction de prédiction Spark universelle évolutive de Microsoft Fabric, qui prend en charge les modèles empaquetés mlflow dans le registre de modèles Microsoft Fabric.

Obtenir des insights

Dans Microsoft Fabric, les valeurs prédites peuvent facilement être écrites dans OneLake et consommées en toute transparence à partir de rapports Power BI, avec le mode Direct Lake Power BI. Cela permet aux praticiens de la science des données de partager très facilement les résultats de leur travail avec les parties prenantes et simplifie également l’opérationnalisation.

Les notebooks qui contiennent le scoring par lots peuvent être planifiés pour s’exécuter à l’aide des fonctionnalités de planification des notebooks. Le scoring par lots peut également être planifié dans le cadre d’activités de pipeline de données ou de travaux Spark. Power BI obtient automatiquement les dernières prédictions sans avoir besoin de charger ou d’actualiser les données, grâce au mode Lac direct dans Microsoft Fabric.

Étapes suivantes