Guide pratique pour accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Article
08/16/2024

L’outil Data Wrangler est une ressource basée sur un bloc-notes qui fournit une interface immersive pour l’analyse exploratoire des données. Cela combine un affichage de données de type grille avec des statistiques récapitulatives dynamiques, des visualisations intégrées et une bibliothèque d’opérations courantes de nettoyage des données. Vous pouvez appliquer chaque opération en quelques étapes. Vous pouvez mettre à jour l’affichage des données en temps réel et générer du code dans pandas ou PySpark que vous pouvez enregistrer dans le bloc-notes en tant que fonction réutilisable. Cet article se concentre sur l’exploration et la transformation des DataFrames pandas. Pour plus d’informations sur l’utilisation de Data Wrangler sur des DataFrames Spark, visitez cette ressource.

Prérequis

Obtenir un abonnement Microsoft Fabric. Ou, inscrivez-vous pour un essai gratuit de Microsoft Fabric.
Connectez-vous à Microsoft Fabric.
Utilisez le sélecteur d’expérience sur le côté gauche de votre page d’accueil pour passer à l’expérience science des données Synapse.

Limites

Les opérations de code personnalisées sont actuellement prises en charge uniquement pour les DataFrames Pandas.
L’affichage Data Wrangler fonctionne mieux sur les grands moniteurs, bien que vous puissiez minimiser ou masquer différentes parties de l’interface pour s’adapter aux écrans plus petits.

Lancement de Data Wrangler

Vous pouvez lancer Data Wrangler directement à partir d’un notebook Microsoft Fabric pour explorer et transformer n’importe quel DataFrame Pandas ou Spark. Pour plus d’informations sur l’utilisation de Data Wrangler avec des DataFrames Spark, consultez cet article complémentaire. Cet extrait de code montre comment lire des exemples de données dans un DataFrame pandas :

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Dans l’onglet « Accueil » du ruban de notebook, utilisez l’invite déroulante Data Wrangler pour parcourir les DataFrames actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.

Conseil

Data Wrangler ne peut pas être ouvert si le noyau du notebook est occupé. Une cellule en cours d’exécution doit terminer son exécution avant que Data Wrangler puisse se lancer, comme indiqué dans cette capture d’écran :

Choix d’échantillons personnalisés

Pour ouvrir un échantillon personnalisé de n’importe quel DataFrame actif avec Data Wrangler, sélectionnez « Choisir un échantillon personnalisé » dans la liste déroulante, comme indiqué dans cette capture d’écran :

Cela lance une fenêtre contextuelle avec des options permettant de spécifier la taille de l’échantillon souhaité (nombre de lignes) et la méthode d’échantillonnage (premiers enregistrements, derniers enregistrements ou ensemble aléatoire). Les 5 000 premières lignes du DataFrame servent de taille d’exemple par défaut, comme illustré dans cette capture d’écran :

Affichage des statistiques récapitulatives

Lorsque Data Wrangler se charge, il affiche une vue d’ensemble descriptive du DataFrame choisi dans le panneau « Résumé ». Cette présentation comprend des informations sur les dimensions DataFrame, ses valeurs manquantes, etc. La sélection d’une colonne dans la grille Data Wrangler invite le panneau « Résumé » à mettre à jour et à afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.

Conseil

Les statistiques et les visuels spécifiques aux colonnes (à la fois dans le panneau « Résumé » et dans les en-têtes de colonne) dépendent du type de données de colonne. Par exemple, un histogramme regroupé d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est convertie en type numérique, comme indiqué dans cette capture d’écran :

Parcourir les opérations de nettoyage des données

Vous trouverez la liste des étapes de nettoyage des données pouvant faire l’objet d’une recherche dans le panneau « Opérations ». Dans le panneau Opérations, la sélection d’une étape de nettoyage des données vous invite à fournir une colonne ou des colonnes cibles, ainsi que tous les paramètres nécessaires pour effectuer l’étape. Par exemple, l’invite permettant de mettre à l’échelle numériquement une colonne nécessite une nouvelle plage de valeurs, comme indiqué dans cette capture d’écran :

Conseil

Vous pouvez appliquer une plus petite sélection d’opérations à partir du menu de chaque en-tête de colonne, comme indiqué dans cette capture d’écran :

Aperçu et application d’opérations

La grille d’affichage de Data Wrangler prévisualise automatiquement les résultats d’une opération sélectionnée et le code correspondant apparaît automatiquement dans le panneau situé sous la grille. Pour valider le code en aperçu, sélectionnez «Appliquer» à l’un ou l’autre endroit. Pour supprimer le code préversion et essayer une nouvelle opération, sélectionnez « Ignorer », comme illustré dans cette capture d’écran :

Une fois qu’une opération est appliquée, la grille d’affichage Data Wrangler et les statistiques récapitulatives sont mises à jour pour refléter les résultats. Le code apparaît dans la liste ouverte des opérations validées, située dans le panneau « Étapes de nettoyage », comme indiqué dans cette capture d’écran :

Conseil

Vous pouvez toujours annuler l’étape la plus récente appliquée. Dans le panneau « Étapes de nettoyage », une icône de corbeille s’affiche si vous pointez votre curseur sur l’étape la plus récente appliquée, comme illustré dans cette capture d’écran :

Ce tableau récapitule les opérations actuellement prises en charge par Data Wrangler :

Opération	Description
Sort	Trier une colonne par ordre croissant ou décroissant
Filter	Filtrer les lignes en fonction d’une ou plusieurs conditions
Codage à chaud	Créer des colonnes pour chaque valeur unique dans une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne
Codage à chaud avec délimiteur	Fractionner et coder des données catégorielles à chaud à l’aide d’un délimiteur
Modifier le type de colonne	Modifier le type de données d’une colonne
Supprimer la colonne	Supprimer une ou plusieurs colonnes
Sélectionner une colonne	Choisir une ou plusieurs colonnes à conserver, puis supprimer le reste
Renommer la colonne	Renommer une colonne
Supprimer les valeurs manquantes	Supprimer les lignes avec des valeurs manquantes
Supprimer les valeurs dupliquées	Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes
Remplir les valeurs manquantes	Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur
Rechercher et remplacer	Remplacer les cellules par un modèle de correspondance exacte
Regrouper par colonne et agréger	Regrouper les valeurs par colonne et agréger les résultats
Éliminer les espaces blancs	Supprimer l’espace blanc du début et de la fin du texte
Fractionner un texte	Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur
Convertir du texte en minuscules	Convertir du texte en minuscules
Convertir du texte en majuscules	Convertir du texte en majuscules
Mettre à l’échelle les valeurs min/max	Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale
Remplissage de Flash	Créer automatiquement une colonne basée sur des exemples dérivés d’une colonne existante

Modifier votre affichage

À tout moment, vous pouvez personnaliser l’interface avec l’onglet « Vues » dans la barre d’outils située au-dessus de la grille d’affichage Data Wrangler. Cela peut masquer ou afficher différents volets en fonction de vos préférences et de votre taille d’écran, comme illustré dans cette capture d’écran :

Enregistrement et exportation de code

La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options permettant d’enregistrer le code généré. Vous pouvez copier le code dans le Presse-papiers, ou l’exporter vers le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé dans un fichier csv.

Conseil

Data Wrangler génère du code qui est appliqué uniquement lorsque vous exécutez manuellement la nouvelle cellule, et il n’écrasera pas votre DataFrame d’origine, comme le montre cette capture d’écran :

Vous pouvez ensuite exécuter ce code exporté, comme illustré dans cette capture d’écran :

Pour essayer Data Wrangler sur Spark DataFrames, consultez cet article complémentaire
Pour une démo en direct de Data Wrangler dans Fabric, regardez cette vidéo de nos amis de Guy in a Cube
Pour essayer Data Wrangler dans Visual Studio Code, consultez Data Wrangler dans VS Code
Avons-nous oublié une fonctionnalité dont vous avez besoin ? N’hésitez pas à nous en faire part. Suggérez-le dans le forum Fabric Ideas

Partager via

Guide pratique pour accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Prérequis

Limites

Lancement de Data Wrangler

Choix d’échantillons personnalisés

Affichage des statistiques récapitulatives

Parcourir les opérations de nettoyage des données

Aperçu et application d’opérations

Modifier votre affichage

Enregistrement et exportation de code

Commentaires

Ressources supplémentaires

Partager via

Guide pratique pour accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Prérequis

Limites

Lancement de Data Wrangler

Choix d’échantillons personnalisés

Affichage des statistiques récapitulatives

Parcourir les opérations de nettoyage des données

Aperçu et application d’opérations

Modifier votre affichage

Enregistrement et exportation de code

Contenu connexe

Commentaires

Ressources supplémentaires