Regroupement ou résumant les lignes

Dans Power Query, vous pouvez regrouper les valeurs figurant dans différentes lignes dans une seule valeur, en regroupant les lignes en fonction des valeurs figurant dans une ou plusieurs colonnes. Vous avez le choix entre deux types d’opérations de regroupement :

  • Regroupements de colonnes.

  • Regroupements de lignes.

Pour ce tutoriel, vous allez utiliser l’échantillon de table suivant.

Échantillon de table initiale.

Table avec des colonnes Year (2020), Country (USA, Panama ou Canada), Product (Shirt ou Shorts), Sales channel (Online ou Reseller) et Units (différentes valeurs comprises entre 55 et 7500)

Où trouver le bouton Grouper par

Vous pouvez trouver le bouton Grouper par dans trois emplacements :

  • Sous l’onglet Accueil, dans le groupe Transformer.

    Grouper par sous l’onglet Accueil.

  • Sous l’onglet Transformer, dans le groupe Table.

    Grouper par sur l’onglet Transformation.

  • Dans le menu contextuel lorsque vous cliquez avec le bouton droit pour sélectionner des colonnes.

    Grouper par dans le menu contextuel.

Utiliser une fonction d’agrégation pour grouper par une ou plusieurs colonnes

Dans cet exemple, votre objectif est de résumer le total des unités vendues aux niveaux d’un pays et d’un canal de vente. Pour effectuer l’opération Grouper par, vous allez utiliser les colonnes Country et Sales Channel.

  1. Sélectionnez Grouper par sous l’onglet Accueil.
  2. Sélectionnez l’option Avancé afin de pouvoir sélectionner plusieurs colonnes à regrouper.
  3. Sélectionnez la colonne Country.
  4. Sélectionnez Ajouter un regroupement.
  5. Sélectionnez la colonne Sales Channel.
  6. Dans Nouveau nom de colonne, entrez Total d’unités, dans Opération, sélectionnez Somme, et dans Colonne, sélectionnez Units.
  7. Sélectionnez OK.

Zone de dialogue Grouper par avec des colonnes agrégées.

Cette opération donne le tableau suivant.

Exemple de table de sortie avec des colonnes Country, Sales Channel et Total units.

Opérations disponibles

La fonctionnalité Grouper par permet de classer les opérations de deux manières :

  • Opération au niveau des lignes
  • Opération au niveau des colonnes

Le tableau suivant décrit chacune de ces onglets.

Nom de l’opération Category Description
Sum Opération de colonne Additionne toutes les valeurs d’une colonne
Moyenne Opération de colonne Calcule la valeur moyenne d’une colonne
Median Opération de colonne Calcule la valeur médiane d’une colonne
Min Opération de colonne Calcule la valeur minimale d’une colonne
Max Opération de colonne Calcule la valeur maximale d’une colonne
Centile Opération de colonne Calcule le centile à l’aide d’une valeur d’entrée comprise entre 0 et 100, à partir d’une colonne
Compter les valeurs distinctes Opération de colonne Calcule le nombre de valeurs distinctes dans une colonne
Count : compter les lignes Opération de ligne Calcule le nombre total de lignes dans un groupe donné
Compter les lignes distinctes Opération de ligne Calcule le nombre de lignes distinctes dans un groupe donné
Toutes les lignes Opération de ligne Affiche toutes les lignes groupées dans une valeur de table sans agrégations

Remarque

Les opérations Compter les valeurs distinctes et Centile sont disponibles uniquement dans Power Query Online.

Effectuer une opération pour regrouper par une ou plusieurs colonnes

À partir de l’exemple d’origine, dans cet exemple, vous créerez une colonne contenant le nombre total d’unités et deux autres colonnes qui vous donnent le nom et les unités vendues pour le produit le plus performant, résumés au niveau du pays et du canal de vente.

Exemple de table de sortie avec des opérations.

  1. Utilisez les colonnes suivantes comme Regrouper par :

    • Pays ou région
    • Canal de vente
  2. Créez deux nouvelles colonnes en en suivant ces étapes :

    1. Agrégez la colonne Units à l’aide de l’opération Somme. Nommez cette colonne Total d’unités.
    2. Ajoutez une nouvelle colonne Produits à l’aide de l’opération Toutes les lignes.

    Zone de dialogue Grouper par avec une colonne non agrégée.

Une fois cette opération terminée, vous constatez que la colonne Produits contient des valeurs [Table] à l’intérieur de chaque cellule. Chaque valeur [Table] contient toutes les lignes regroupées par les colonnes Country et Sales Channel de votre table d’origine. Vous pouvez sélectionner l’espace blanc à l’intérieur de la cellule pour afficher un aperçu du contenu de la table en bas de la boîte de dialogue.

Volet de visualisation des détails de la table.

Remarque

Il se peut que le volet d’aperçu des détails n’affiche pas toutes les lignes utilisées pour l’opération Grouper par. Vous pouvez sélectionner la valeur [Table] pour afficher toutes les lignes associées à l’opération Grouper par correspondante.

Ensuite, vous devez extraire la ligne contenant la valeur la plus élevée dans la colonne Units des tables à l’intérieur de la nouvelle colonne Produits, et appeler cette nouvelle colonne Produit le plus performant.

Extraire les informations du produit le plus performant

Avec la nouvelle colonne Produits contenant les valeurs [Table], vous créez une colonne personnalisée en accédant à l’onglet Ajouter une colonne dans le ruban et en sélectionnant Colonne personnalisée dans le groupe Général.

Ajouter une colonne personnalisée.

Nommez votre nouvelle colonne Produit le plus performant. Saisir la formule Table.Max([Products], "Units" ) sous Formule de colonne personnalisée.

Formule de colonne personnalisée avec Table.Max.

Le résultat de cette formule crée une colonne avec des valeurs [Enregistrement]. Ces valeurs d’enregistrement sont essentiellement une table avec une seule ligne. Ces enregistrements contiennent la ligne avec la valeur maximale de la colonne Units de chaque valeur [Table] dans la colonne Produits.

Résultat de la formule de colonne personnalisée avec Table.Max.

Avec cette nouvelle colonne Produit le plus performant qui contient des valeurs [Enregistrement], vous pouvez sélectionner l’icône de expand. développement, sélectionner les champs Produit et Unités, et fields, puis sélectionnez OK.

Développez l’opération pour la valeur d’enregistrement dans la colonne produit Meilleur vendeur.

Après que vous avez supprimé votre colonne Produits et défini le type de données pour les deux colonnes nouvellement développées, le résultat ressemble à l’image suivante.

Table finale avec toutes les transformations.

Regroupement probable

Remarque

La fonctionnalité suivante est disponible uniquement dans Power Query Online.

Pour montrer comment effectuer un « regroupement probable », considérez l’échantillon de table illustré dans l’image suivante.

Tableau avec neuf rangées d'entrées qui contiennent diverses orthographes et capabilités du nom Miguel et William.

L’objectif d’un regroupement probable est d’effectuer une opération Grouper par qui utilise un algorithme de correspondance approximative pour les chaînes de texte. Power Query utilise l’algorithme de similarité Jaccard pour mesurer la similarité entre des paires d’instances. Ensuite, il applique un clustering hiérarchique agglomératif pour regrouper des instances. L’image suivante montre la sortie attendue, où la table sera regroupée par la colonne Person.

Table montrant les entrées de Person « Miguel » et « Mike » et Frequency respectivement 3 et 2.

Pour opérer le regroupement probable, vous effectuez les mêmes étapes que celles décrites précédemment dans cet article. La seule différence est que, cette fois, dans la boîte de dialogue Grouper par, vous activez la case à cocher Utiliser le regroupement probable.

Case à cocher Regroupement probable dans la zone de dialogue Grouper par.

Pour chaque groupe de lignes, Power Query choisit l’instance la plus fréquente comme instance « canonique ». Si plusieurs instances se produisent avec la même fréquence, Power Query choisit la première. Une fois que vous avez sélectionné OK dans la boîte de dialogue Grouper par, vous obtenez le résultat attendu.

Échantillon de table finale Regroupement probable, pas de table de transformation.

Toutefois, vous avez davantage de contrôle sur l’opération de regroupement probable en développant les Options de groupe probable.

Options de regroupement probable.

Les options suivantes sont disponibles pour le regroupement probable :

  • Seuil de similarité (facultatif) : cette option indique comment deux valeurs similaires doivent être regroupées. La valeur minimale de 0 entraîne le regroupement de toutes les valeurs. La valeur maximale de 1 permet de regrouper uniquement les valeurs qui correspondent exactement. La valeur par défaut est 0.8.
  • Ignorer la casse : lors de la comparaison de chaînes de texte, la casse est ignorée. Cette option est activée par défaut.
  • Regrouper en combinant des parties de texte : l’algorithme tente de combiner des parties de texte (telles que micro et soft en Microsoft) pour regrouper des valeurs.
  • Afficher les scores de similarité : afficher les scores de similarité entre les valeurs d’entrée et les valeurs représentatives calculées après le regroupement probable. Nécessite l’ajout d’une opération telle que Toutes les lignes pour présenter ces informations ligne par ligne.
  • Table de transformation (facultative) : vous pouvez sélectionner une table de transformation qui mappe des valeurs (comme le mappage de MSFT à Microsoft) pour les regrouper.

Pour cet exemple, une table de transformation sera utilisée pour montrer comment des valeurs peuvent être mappées. La table de transformation comporte deux colonnes :

  • De : La chaîne de texte à rechercher dans votre tableau.
  • To : chaîne de texte à utiliser pour remplacer la chaîne de texte entrée dans la colonne From.

L’image suivante montre la table de transformation utilisée dans cet exemple.

Tableau montrant les valeurs From de mike et William, et les valeurs To de Miguel et Bill.

Important

Il est important que la table de transformation ait les mêmes colonnes et noms de colonnes que ceux indiqués ci-dessus (« From » et « To »), sans quoi Power Query ne les reconnaîtra pas.

Revenez à la boîte de dialogue Grouper par, développez les Options de groupe probable, modifiez l’opération Compter les lignes en Toutes les lignes, activez l’option Afficher les scores de similarité, puis sélectionnez le menu déroulant Table de transformation.

Regroupement probable Menu déroulant de la table de transformation des échantillons.

Après que vous avez sélectionné la table de, sélectionnez OK. Le résultat de cette opération vous offre les informations suivantes :

Échantillon de table finale Regroupement probable avec table de transformation.

Dans cet exemple, l’option Ignorer la casse a été activée, de sorte que les valeurs figurant dans la colonne From de la Table Transformation sont utilisées pour rechercher la chaîne de texte sans tenir compte de la casse de celle-ci. Cette opération de transformation se produit en premier, suivie de l’opération de regroupement probable.

Le score de similarité est également affiché dans la valeur de table en regard de la colonne Person, reflétant exactement la façon dont les valeurs ont été regroupées et leurs scores de similarité respectifs. Vous pouvez développer cette colonne au besoin ou utiliser les valeurs des nouvelles colonnes Fréquence pour d’autres types de transformations.

Remarque

Lors d’un regroupement par plusieurs colonnes, la table de transformation effectue l’opération de remplacement dans toutes les colonnes si le remplacement de la valeur augmente le score de similarité.

Voir aussi

Ajouter une colonne personnalisée
Supprimer les doublons