Utilisation des outils de profilage des données
Les outils de profilage des données offrent de nouvelles méthodes intuitives pour nettoyer, transformer et comprendre les données dans l’éditeur Power Query. Notamment :
Qualité de la colonne
Distribution des colonnes
Profil de colonne
Pour activer les outils de profilage des données, accédez à l’onglet Affichage sur le ruban. Dans Power Query Desktop, activez les options désirées dans le groupe Aperçu des données, comme illustré dans l’image suivante.
Dans Power Query Online, sélectionnez Vue Données, ensuite activez les options souhaitées dans la liste déroulante.
Après avoir activé les options, vous verrez quelque chose ressemblant à l’image suivante dans l’éditeur Power Query.
Remarque
Par défaut, Power Query réalise ce profilage de données sur les 1 000 premières lignes de vos données. Pour le faire fonctionner sur l’ensemble du jeu de données, sélectionnez le profilage de colonne en fonction du message des 1000 lignes supérieures dans le coin inférieur gauche de votre fenêtre d’éditeur pour modifier le profilage de colonne en profilage de colonne en fonction de l’ensemble du jeu de données.
Qualité de la colonne
La fonctionnalité de qualité de colonne étiquette les valeurs figurant dans les lignes en cinq catégories :
Valide, affichage en vert.
Erreur, affichage en rouge.
Vide, affichage en gris.
Inconnue, affichage en vert. Indique l’existence d’erreurs dans une colonne. La qualité des données restantes est inconnue.
Erreur inattendue, affichage en rouge, en pointillés.
Ces indicateurs sont affichés directement sous le nom de la colonne dans un petit graphique à barres, comme illustré dans l’image suivante.
Le nombre d’enregistrements dans chaque catégorie de qualité de colonne est également affiché sous forme de pourcentage.
En pointant sur une colonne, vous pouvez voir la distribution numérique de la qualité des valeurs dans la colonne entière. En outre, la sélection du bouton Points de suspension (...) ouvre des boutons d’action rapide pour les opérations sur les valeurs.
Distribution des colonnes
Cette fonctionnalité fournit un ensemble d’éléments visuels sous les noms des colonnes, qui montrent la fréquence et la distribution des valeurs dans chaque colonne. Les données de ces visualisations sont triées par ordre décroissant à partir de la valeur ayant la fréquence la plus élevée.
En pointant sur les données de distribution dans une colonne, vous pouvez voir des informations sur les données globales figurant dans celle-ci (avec un nombre distinct et des valeurs uniques). Distinct fait référence au nombre global de valeurs différentes dans chaque colonne. Unique fait référence aux valeurs qui n’ont qu’une instance unique dans la colonne. Vous pouvez également sélectionner le bouton Points de suspension et opérer un choix dans un menu d’opérations disponibles.
Profil de colonne
Cette fonctionnalité permet d’examiner plus en profondeur les données d’une colonne. Outre le graphique de distribution de la colonne, elle présente un graphique de statistiques de celle-ci. Ces informations s’affichent sous la section d’aperçu des données, comme illustré dans l’image suivante.
Filtrer par valeur
Vous pouvez interagir avec le graphique de distribution des valeurs sur le côté droit, et sélectionner n’importe quelle barre en pointant sur une partie du graphique.
Cliquez avec le bouton droit pour afficher un ensemble de transformations disponibles pour cette valeur.
Copie de données
Dans l’angle supérieur droit des sections de statistiques de colonne et de distribution des valeurs, vous pouvez sélectionner le bouton Points de suspension (...) pour afficher un menu contextuel Copier. Sélectionnez-le pour copier les données affichées dans l’une ou l’autre section du Presse-papiers.
Regrouper par valeur
Lorsque vous sélectionnez le bouton Points de suspension (...) dans l’angle supérieur droit du graphique de distribution des valeurs, en plus de l’option Copier, vous pouvez sélectionner l’option Regrouper par. Cette fonctionnalité regroupe les valeurs de votre graphique par un ensemble d’options disponibles.
L’image suivante montre une colonne de noms de produits qui sont regroupés par longueur de texte. Une fois les valeurs regroupées dans le graphique, vous pouvez interagir avec les valeurs individuelles, comme décrit dans Filtrer par valeur.