Comment accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric
Data Wrangler est un outil basé sur un notebook qui fournit aux utilisateurs une expérience immersive pour effectuer une analyse exploratoire des données. La fonctionnalité combine un affichage de données de type grille avec des statistiques de résumé dynamiques, des visualisations intégrées et une bibliothèque d’opérations courantes de nettoyage des données. Chaque opération peut être appliquée en quelques clics, mettant à jour l’affichage des données en temps réel et générant du code qui peut être enregistré dans le bloc-notes en tant que fonction réutilisable.
Important
Microsoft Fabric est en préversion.
Prérequis
Un abonnement Power BI Premium. Si vous n’en avez pas, consultez Comment acheter Power BI Premium.
Un espace de travail Power BI avec une capacité Premium affectée. Si vous n’avez pas d’espace de travail, suivez les étapes décrites dans Créer un espace de travail pour en créer un et l’affecter à une capacité Premium.
Connectez-vous à Microsoft Fabric.
Limites
- Data Wrangler prend actuellement uniquement en charge les DataFrames Pandas. La prise en charge des DataFrames Spark est en cours.
- L’affichage de Data Wrangler fonctionne mieux sur les grands moniteurs, bien que différentes parties de l’interface puissent être réduites ou masquées pour prendre en charge des écrans plus petits.
Lancer le Wrangler de données
Les utilisateurs peuvent lancer Data Wrangler directement à partir d’un bloc-notes Microsoft Fabric pour explorer et transformer n’importe quel DataFrame Pandas. Cet extrait de code montre comment lire des exemples de données dans un DataFrame Pandas :
import pandas as pd
# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
Sous l’onglet « Données » du ruban de notebook, utilisez l’invite déroulante Data Wrangler pour parcourir les DataFrames Pandas actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.
Conseil
Data Wrangler ne peut pas être ouvert pendant que le noyau du notebook est occupé. Une cellule en cours d’exécution doit terminer son exécution avant que Data Wrangler puisse être lancé.
Affichage des statistiques récapitulatives
Lorsque Data Wrangler est lancé, il génère une vue d’ensemble descriptive du DataFrame affiché dans le panneau Résumé. Cette vue d’ensemble comprend des informations sur les dimensions du DataFrame, les valeurs manquantes, etc. La sélection d’une colonne dans la grille Data Wrangler invite le panneau Résumé à mettre à jour et à afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.
Conseil
Les statistiques et visuels spécifiques aux colonnes (à la fois dans le panneau Résumé et dans les en-têtes de colonne) dépendent du type de données de colonne. Par instance, un histogramme binned d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est castée en tant que type numérique. Utilisez le panneau Opérations pour recaster les types de colonnes pour l’affichage le plus précis.
Opérations de nettoyage des données de navigation
Vous trouverez la liste des étapes de nettoyage des données pouvant faire l’objet d’une recherche dans le panneau Opérations. (Vous pouvez également accéder à une sélection plus petite des mêmes opérations dans le menu contextuel de chaque colonne.) Dans le panneau Opérations, la sélection d’une étape de nettoyage des données vous invite à sélectionner une ou plusieurs colonnes cibles, ainsi que tous les paramètres nécessaires pour effectuer l’étape. Par exemple, l’invite de mise à l’échelle numérique d’une colonne nécessite une nouvelle plage de valeurs.
Aperçu et application d’opérations
Les résultats d’une opération sélectionnée sont affichés automatiquement dans la grille d’affichage Data Wrangler et le code correspondant s’affiche automatiquement dans le panneau sous la grille. Pour valider le code en préversion, sélectionnez « Appliquer » à l’un ou l’autre emplacement. Pour vous débarrasser du code en préversion et essayer une nouvelle opération, sélectionnez « Ignorer ».
Une fois une opération appliquée, la grille d’affichage et les statistiques récapitulatives data Wrangler sont mises à jour pour refléter les résultats. Le code aperçu apparaît dans la liste en cours d’exécution des opérations validées, située dans le panneau Étapes de nettoyage.
Conseil
Vous pouvez toujours annuler l’étape la plus récente appliquée avec l’icône de corbeille à côté de celle-ci, qui s’affiche si vous placez votre curseur sur cette étape dans le panneau Étapes de nettoyage.
Le tableau suivant récapitule les opérations prises en charge par Data Wrangler :
Opération | Description |
---|---|
Sort | Trier une colonne dans l’ordre croissant ou décroissant |
Filter | Filtrer les lignes en fonction d’une ou plusieurs conditions |
Code à chaud | Créer des colonnes pour chaque valeur unique d’une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne |
Code à chaud avec délimiteur | Fractionner et encoder des données catégorielles à chaud à l’aide d’un délimiteur |
Modifier le type de colonne | Modifier le type de données d’une colonne |
Supprimer la colonne | Supprimer une ou plusieurs colonnes |
Sélectionner la colonne | Choisissez une ou plusieurs colonnes à conserver, puis supprimez le reste |
Renommer la colonne | Renommer une colonne |
Supprimer les valeurs manquantes | Supprimer les lignes avec des valeurs manquantes |
Supprimer les lignes en double | Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes |
Remplir les valeurs manquantes | Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur |
Rechercher et remplacer | Remplacer les cellules par un modèle de correspondance exacte |
Regrouper par colonne et agrégat | Regrouper les valeurs par colonne et les résultats d’agrégation |
Espace blanc de la bande | Supprimer les espaces blancs du début et de la fin du texte |
Fractionner le texte | Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur |
Convertir du texte en minuscules | Convertir du texte en minuscules |
Convertir du texte en majuscules | Convertir du texte en MAJUSCULES |
Mettre à l’échelle les valeurs min/max | Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale |
Remplissage instantané | Créer automatiquement une colonne à partir d’exemples dérivés d’une colonne existante |
Enregistrement et exportation de code
La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options pour enregistrer le code généré par l’outil. Vous pouvez copier le code dans le Presse-papiers ou l’exporter dans le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé, reflété dans la grille d’affichage Data Wrangler mise à jour, sous forme de fichier csv.
Conseil
Le code généré par Data Wrangler n’est pas appliqué tant que vous n’avez pas exécuté manuellement la nouvelle cellule, et il ne remplace pas votre DataFrame d’origine.
Étapes suivantes
- Pour essayer Data Wrangler dans VS Code, consultez Data Wrangler in VS Code.