Partager via


Scénario de bout en bout de la science des données : introduction et architecture

Cet ensemble de tutoriels illustre un exemple de scénario de bout en bout dans l’expérience de science des données Fabric. Vous implémentez chaque étape de l’ingestion des données, du nettoyage et de la préparation, à l’entraînement de modèles Machine Learning et à la génération d’insights, puis consommez ces insights à l’aide d’outils de visualisation tels que Power BI.

Si vous débutez avec Microsoft Fabric, consultez Qu’est-ce que Microsoft Fabric ?.

Présentation

Le cycle de vie d’un projet de science des données comprend généralement (souvent de manière itérative) les étapes suivantes :

  • Présentation de l’entreprise
  • Acquisition de données
  • Exploration, nettoyage, préparation et visualisation des données
  • Apprentissage du modèle et suivi des expériences
  • Notation du modèle et génération d’insights.

Les objectifs et les critères de réussite de chaque étape dépendent de la collaboration, du partage des données et de la documentation. L’expérience de science des données Fabric se compose de plusieurs fonctionnalités natives qui permettent la collaboration, l’acquisition, le partage et la consommation de données de manière transparente.

Dans ces tutoriels, vous jouez le rôle d’un scientifique des données qui a la tâche d’explorer, de nettoyer et de transformer un jeu de données contenant le statut d’attrition de 10 000 clients d’une banque. Vous créez ensuite un modèle Machine Learning pour prédire les clients bancaires susceptibles de partir.

Vous allez apprendre à effectuer les activités suivantes :

  1. Utiliser les notebooks Fabric pour les scénarios de science des données.
  2. Ingérer des données dans un lakehouse Fabric à l’aide d’Apache Spark.
  3. Charger les données existantes à partir de tables delta lakehouse.
  4. Nettoyer et transformer des données à l’aide d’outils basés sur Apache Spark et Python.
  5. Créer des expériences et des exécutions pour entraîner des différents modèles Machine Learning.
  6. Inscrire et suivre les modèles entraînés à l’aide de MLflow et de l’interface utilisateur Fabric.
  7. Exécuter la notation à grande échelle et enregistrer les prédictions et les résultats d’inférence dans lakehouse.
  8. Visualiser les prédictions dans Power BI à l’aide de DirectLake.

Architecture

Dans cette série de tutoriels, nous présentons un scénario simplifié de science des données de bout en bout qui implique :

  1. L’ingestion des données à partir d’une source de données externe.
  2. Explorez et nettoyez les données.
  3. Entraînez et enregistrez des modèles Machine Learning.
  4. Effectuez un scoring par lots et enregistrez les prédictions.
  5. Visualisez les résultats de prédiction avec Power BI.

Diagram of the Data science end-to-end scenario components.

Différents composants du scénario de science des données

Sources de données : Fabric permet de se connecter facilement et rapidement à Azure Data Services, à d’autres plateformes cloud et à des sources de données locales pour ingérer des données. À l’aide des notebooks Fabric, vous pouvez ingérer des données à partir des jeux de données Lakehouse, Data Warehouse, des modèles sémantiques et de diverses sources de données personnalisées prises en charge par Apache Spark et Python. Cette série de tutoriels se concentre sur l’ingestion et le chargement de données à partir d’un lakehouse.

Explorer, nettoyer et préparer : l’expérience de science des données sur Fabric prend en charge le nettoyage, la transformation, l’exploration et l’ingénierie de caractéristiques à l’aide d’expériences intégrées sur Spark et d’outils basés sur Python tels que Data Wrangler et la bibliothèque SemPy. Ce tutoriel présente l’exploration des données à l’aide de la bibliothèque Python seaborn, ainsi que le nettoyage et la préparation des données à l’aide d’Apache Spark.

Modèles et expériences : Fabric vous permet d’entraîner, d’évaluer et de noter des modèles Machine Learning à l’aide d’expériences et d’éléments de modèle intégrés de manière transparente à MLflow pour le suivi des expériences et l’inscription/le déploiement de modèles. Fabric offre également des fonctionnalités de prédiction de modèle à grande échelle (PREDICT) pour obtenir et partager des insights métier.

Stockage : Fabric est standardisé sur Delta Lake, ce qui signifie que tous les moteurs de Fabric peuvent interagir avec le même jeu de données stocké dans un lakehouse. Cette couche de stockage vous permet de stocker des données structurées et non structurées qui prennent en charge le stockage basé sur les fichiers et le format tabulaire. Les jeux de données et les fichiers stockés sont facilement accessibles via tous les éléments de l’expérience Fabric tels que les notebooks et les pipelines.

Exposer l’analyse et les insights : les données d’un lakehouse peuvent être consommées par Power BI, outil décisionnel leader du secteur, pour la création de rapports et la visualisation. Les données conservées dans le lakehouse peuvent également être visualisées dans des notebooks à l’aide de bibliothèques de visualisation natives Spark ou Python telles que matplotlib, seaborn, plotlyet bien plus encore. Les données peuvent également être visualisées à l’aide de la bibliothèque SemPy qui prend en charge des visualisations riches et spécifiques aux tâches intégrées pour le modèle de données sémantique, pour les dépendances et leurs violations, ainsi que pour les cas d’usage de classification et de régression.

Étape suivante