Guide pratique pour accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Data Wrangler est un outil basé sur un notebook qui offre aux utilisateurs une interface immersive pour effectuer une analyse exploratoire des données. La fonctionnalité combine un affichage de données de type grille avec des statistiques récapitulatives dynamiques, des visualisations intégrées et une bibliothèque d’opérations courantes de nettoyage des données. Chaque opération peut être appliquée en quelques clics, en mettant à jour l’affichage des données en temps réel et en générant du code dans Pandas ou PySpark qui peut être enregistré dans le notebook en tant que fonction réutilisable. Cet article se concentre sur l’exploration et la transformation des DataFrames Pandas. Vous trouverez des instructions sur l’utilisation de Data Wrangler sur des DataFrames Spark ici.

Prérequis

Limites

  • Data Wrangler prend actuellement en charge la génération de code Pandas en disponibilité générale et la génération de code Spark en préversion publique.
  • Les opérations de code personnalisées sont actuellement prises en charge uniquement pour les DataFrames Pandas.
  • L’affichage de Data Wrangler fonctionne mieux sur les grands écrans, bien que différentes parties de l’interface puissent être réduites ou masquées pour prendre en charge des écrans plus petits.

Lancement de Data Wrangler

Vous pouvez lancer Data Wrangler directement à partir d’un notebook Microsoft Fabric pour explorer et transformer n’importe quel DataFrame Pandas ou Spark. Pour obtenir une vue d’ensemble de l’utilisation de Data Wrangler avec des DataFrames Spark, veuillez consulter cet article complémentaire. Cet extrait de code ci-dessous montre comment lire des échantillons de données dans un DataFrame Pandas :

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Sous l’onglet «Données» du ruban de notebook, utilisez l’invite déroulante Data Wrangler pour parcourir les DataFrames actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.

Conseil

Data Wrangler ne peut pas être ouvert si le noyau du notebook est occupé. Une cellule en cours d’exécution doit terminer son exécution avant que Data Wrangler puisse être lancé.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Choix d’échantillons personnalisés

Data Wrangler vous permet d’ouvrir un échantillon personnalisé de n’importe quel DataFrame actif en sélectionnant « Choisir un échantillon personnalisé » dans la liste déroulante. Cette opération lance une fenêtre contextuelle avec des options permettant de spécifier la taille de l’échantillon souhaité (nombre de lignes) et la méthode d’échantillonnage (premiers enregistrements, derniers enregistrements ou ensemble aléatoire).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Affichage des statistiques récapitulatives

Lorsque Data Wrangler se charge, il affiche une vue d’ensemble descriptive du DataFrame choisi dans le panneau Résumé. Cette vue d’ensemble comprend des informations sur les dimensions du DataFrame, les valeurs manquantes, etc. La sélection d’une colonne dans la grille Data Wrangler invite le panneau Résumé à mettre à jour et à afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.

Conseil

Les statistiques et les visuels spécifiques aux colonnes (à la fois dans le panneau Résumé et dans les en-têtes de colonne) dépendent du type de données de colonne. Par exemple, un histogramme placé dans un compartiment d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est castée en type numérique. Utilisez le panneau Opérations pour recaster les types de colonnes afin d’obtenir l’affichage le plus précis.

Screenshot showing the Data Wrangler display grid and Summary panel.

Parcourir les opérations de nettoyage des données

Vous trouverez la liste des étapes de nettoyage des données pouvant faire l’objet d’une recherche dans le panneau Opérations. (Une plus petite sélection des mêmes opérations est disponible dans le menu de chaque en-tête de colonne.) Dans le panneau Opérations, la sélection d’une étape de nettoyage des données vous invite à fournir une colonne ou des colonnes cibles, ainsi que tous es paramètres nécessaires pour effectuer l’étape. Par exemple, l’invite de mise à l’échelle numérique d’une colonne nécessite une nouvelle plage de valeurs.

Screenshot showing the Data Wrangler Operations panel.

Aperçu et application d’opérations

Les résultats d’une opération sélectionnée sont automatiquement prévisualisés dans la grille d’affichage Data Wrangler, et le code correspondant apparaît automatiquement dans le panneau sous la grille. Pour valider le code en aperçu, sélectionnez «Appliquer» à l’un ou l’autre endroit. Pour vous débarrasser du code en aperçu et essayer une nouvelle opération, sélectionnez «Abandonner».

Screenshot showing a Data Wrangler operation in progress.

Une fois qu’une opération est appliquée, la grille d’affichage Data Wrangler et les statistiques récapitulatives sont mises à jour pour refléter les résultats. Le code apparaît dans la liste ouverte des opérations validées, située dans le panneau Étapes de nettoyage.

Screenshot showing an applied Data Wrangler operation.

Conseil

Vous pouvez toujours annuler l’étape la plus récente appliquée avec l’icône Corbeille à côté de celle-ci, qui apparaît si vous pointez votre curseur sur cette étape dans le panneau Étapes de nettoyage.

Screenshot showing a Data Wrangler operation that can be undone.

Le tableau suivant récapitule les opérations actuellement prises en charge par Data Wrangler :

Opération Description
Sort Trier une colonne par ordre croissant ou décroissant
Filter Filtrer les lignes en fonction d’une ou plusieurs conditions
Codage à chaud Créer des colonnes pour chaque valeur unique dans une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne
Codage à chaud avec délimiteur Fractionner et coder des données catégorielles à chaud à l’aide d’un délimiteur
Modifier le type de colonne Modifier le type de données d’une colonne
Supprimer la colonne Supprimer une ou plusieurs colonnes
Sélectionner une colonne Choisir une ou plusieurs colonnes à conserver, puis supprimer le reste
Renommer la colonne Renommer une colonne
Supprimer les valeurs manquantes Supprimer les lignes avec des valeurs manquantes
Supprimer les valeurs dupliquées Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes
Remplir les valeurs manquantes Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur
Rechercher et remplacer Remplacer les cellules par un modèle de correspondance exacte
Regrouper par colonne et agréger Regrouper les valeurs par colonne et agréger les résultats
Éliminer les espaces blancs Supprimer l’espace blanc du début et de la fin du texte
Fractionner un texte Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur
Convertir du texte en minuscules Convertir du texte en minuscules
Convertir du texte en majuscules Convertir du texte en majuscules
Mettre à l’échelle les valeurs min/max Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale
Remplissage de Flash Créer automatiquement une colonne basée sur des exemples dérivés d’une colonne existante

Enregistrement et exportation de code

La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options permettant d’enregistrer le code généré. Vous pouvez copier le code dans le Presse-papiers ou l’exporter vers le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé dans un fichier csv.

Conseil

Le code généré par Data Wrangler ne sera pas appliqué tant que vous n’exécuterez pas manuellement la nouvelle cellule, et il ne remplacera pas votre DataFrame d’origine.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.