Comment accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Data Wrangler est un outil basé sur un notebook qui fournit aux utilisateurs une expérience immersive pour effectuer une analyse exploratoire des données. La fonctionnalité combine un affichage de données de type grille avec des statistiques de résumé dynamiques, des visualisations intégrées et une bibliothèque d’opérations courantes de nettoyage des données. Chaque opération peut être appliquée en quelques clics, mettant à jour l’affichage des données en temps réel et générant du code qui peut être enregistré dans le bloc-notes en tant que fonction réutilisable.

Important

Microsoft Fabric est en préversion.

Prérequis

Limites

  • Data Wrangler prend actuellement uniquement en charge les DataFrames Pandas. La prise en charge des DataFrames Spark est en cours.
  • L’affichage de Data Wrangler fonctionne mieux sur les grands moniteurs, bien que différentes parties de l’interface puissent être réduites ou masquées pour prendre en charge des écrans plus petits.

Lancer le Wrangler de données

Les utilisateurs peuvent lancer Data Wrangler directement à partir d’un bloc-notes Microsoft Fabric pour explorer et transformer n’importe quel DataFrame Pandas. Cet extrait de code montre comment lire des exemples de données dans un DataFrame Pandas :

import pandas as pd

# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

Sous l’onglet « Données » du ruban de notebook, utilisez l’invite déroulante Data Wrangler pour parcourir les DataFrames Pandas actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.

Conseil

Data Wrangler ne peut pas être ouvert pendant que le noyau du notebook est occupé. Une cellule en cours d’exécution doit terminer son exécution avant que Data Wrangler puisse être lancé.

Capture d’écran montrant un bloc-notes Fabric avec l’invite déroulante Data Wrangler.

Affichage des statistiques récapitulatives

Lorsque Data Wrangler est lancé, il génère une vue d’ensemble descriptive du DataFrame affiché dans le panneau Résumé. Cette vue d’ensemble comprend des informations sur les dimensions du DataFrame, les valeurs manquantes, etc. La sélection d’une colonne dans la grille Data Wrangler invite le panneau Résumé à mettre à jour et à afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.

Conseil

Les statistiques et visuels spécifiques aux colonnes (à la fois dans le panneau Résumé et dans les en-têtes de colonne) dépendent du type de données de colonne. Par instance, un histogramme binned d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est castée en tant que type numérique. Utilisez le panneau Opérations pour recaster les types de colonnes pour l’affichage le plus précis.

Capture d’écran montrant la grille d’affichage Data Wrangler et le panneau Résumé.

Opérations de nettoyage des données de navigation

Vous trouverez la liste des étapes de nettoyage des données pouvant faire l’objet d’une recherche dans le panneau Opérations. (Vous pouvez également accéder à une sélection plus petite des mêmes opérations dans le menu contextuel de chaque colonne.) Dans le panneau Opérations, la sélection d’une étape de nettoyage des données vous invite à sélectionner une ou plusieurs colonnes cibles, ainsi que tous les paramètres nécessaires pour effectuer l’étape. Par exemple, l’invite de mise à l’échelle numérique d’une colonne nécessite une nouvelle plage de valeurs.

Capture d’écran montrant le panneau Opérations Wrangler de données.

Aperçu et application d’opérations

Les résultats d’une opération sélectionnée sont affichés automatiquement dans la grille d’affichage Data Wrangler et le code correspondant s’affiche automatiquement dans le panneau sous la grille. Pour valider le code en préversion, sélectionnez « Appliquer » à l’un ou l’autre emplacement. Pour vous débarrasser du code en préversion et essayer une nouvelle opération, sélectionnez « Ignorer ».

Capture d’écran montrant une opération Data Wrangler en cours.

Une fois une opération appliquée, la grille d’affichage et les statistiques récapitulatives data Wrangler sont mises à jour pour refléter les résultats. Le code aperçu apparaît dans la liste en cours d’exécution des opérations validées, située dans le panneau Étapes de nettoyage.

Capture d’écran montrant une opération Data Wrangler appliquée.

Conseil

Vous pouvez toujours annuler l’étape la plus récente appliquée avec l’icône de corbeille à côté de celle-ci, qui s’affiche si vous placez votre curseur sur cette étape dans le panneau Étapes de nettoyage.

Capture d’écran montrant une opération Data Wrangler qui peut être annulée.

Le tableau suivant récapitule les opérations prises en charge par Data Wrangler :

Opération Description
Sort Trier une colonne dans l’ordre croissant ou décroissant
Filter Filtrer les lignes en fonction d’une ou plusieurs conditions
Code à chaud Créer des colonnes pour chaque valeur unique d’une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne
Code à chaud avec délimiteur Fractionner et encoder des données catégorielles à chaud à l’aide d’un délimiteur
Modifier le type de colonne Modifier le type de données d’une colonne
Supprimer la colonne Supprimer une ou plusieurs colonnes
Sélectionner la colonne Choisissez une ou plusieurs colonnes à conserver, puis supprimez le reste
Renommer la colonne Renommer une colonne
Supprimer les valeurs manquantes Supprimer les lignes avec des valeurs manquantes
Supprimer les lignes en double Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes
Remplir les valeurs manquantes Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur
Rechercher et remplacer Remplacer les cellules par un modèle de correspondance exacte
Regrouper par colonne et agrégat Regrouper les valeurs par colonne et les résultats d’agrégation
Espace blanc de la bande Supprimer les espaces blancs du début et de la fin du texte
Fractionner le texte Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur
Convertir du texte en minuscules Convertir du texte en minuscules
Convertir du texte en majuscules Convertir du texte en MAJUSCULES
Mettre à l’échelle les valeurs min/max Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale
Remplissage instantané Créer automatiquement une colonne à partir d’exemples dérivés d’une colonne existante

Enregistrement et exportation de code

La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options pour enregistrer le code généré par l’outil. Vous pouvez copier le code dans le Presse-papiers ou l’exporter dans le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé, reflété dans la grille d’affichage Data Wrangler mise à jour, sous forme de fichier csv.

Conseil

Le code généré par Data Wrangler n’est pas appliqué tant que vous n’avez pas exécuté manuellement la nouvelle cellule, et il ne remplace pas votre DataFrame d’origine.

Capture d’écran montrant les options d’exportation de code dans Data Wrangler.

Capture d’écran montrant le code généré par Data Wrangler de retour dans le notebook.

Étapes suivantes