Valeurs de cluster
Les valeurs de cluster créent automatiquement des groupes avec des valeurs similaires à l’aide d’un algorithme de correspondance approximative, puis mappent la valeur de chaque colonne au groupe le mieux mis en correspondance. Cette transformation est utile lorsque vous travaillez avec des données qui ont de nombreuses variantes différentes de la même valeur et que vous devez combiner des valeurs en groupes cohérents.
Considérez un exemple de tableau avec une colonne ID qui contient un ensemble d’ID et une colonne Person contenant un ensemble de versions orthographiques et majuscules des noms Miguel, Mike, William et Bill.
Dans cet exemple, le résultat que vous recherchez est une table avec une nouvelle colonne qui affiche les groupes de valeurs appropriés de la colonne Person et non toutes les variantes différentes des mêmes mots.
Remarque
La fonctionnalité de valeurs groupées est disponible uniquement pour Power Query Online.
Créer une colonne de cluster
Pour les valeurs de cluster, sélectionnez d’abord la colonne Person , accédez à l’onglet Ajouter une colonne dans le ruban, puis sélectionnez l’option Valeurs du cluster .
Dans la boîte de dialogue Valeurs du cluster , confirmez la colonne à utiliser pour créer les clusters et entrez le nouveau nom de la colonne. Pour ce cas, nommez ce nouveau cluster de colonnes.
Cette opération génère le résultat affiché dans l’image suivante.
Remarque
Pour chaque cluster de valeurs, Power Query sélectionne l’instance la plus fréquente de la colonne sélectionnée comme instance « canonique ». Si plusieurs instances se produisent avec la même fréquence, Power Query choisit la première.
Utilisation des options de cluster floues
Les options suivantes sont disponibles pour les valeurs de clustering dans une nouvelle colonne :
- Seuil de similarité (facultatif) : cette option indique comment deux valeurs similaires doivent être regroupées. La valeur minimale de zéro (0) entraîne le regroupement de toutes les valeurs. La valeur maximale de 1 permet de regrouper uniquement les valeurs qui correspondent exactement. La valeur par défaut est 0.8.
- Ignorer la casse : lors de la comparaison de chaînes de caractères, la casse est ignorée. Cette option est activée par défaut.
- Regroupement par combinaison de parties de texte : l'algorithme tente de combiner des parties de texte (par exemple, en combinant Micro et soft en Microsoft) pour regrouper les valeurs.
- Afficher les scores de similarité : Affiche les scores de similarité entre les valeurs d'entrée et les valeurs représentatives calculées après le clustering flou.
- Table de transformation (facultatif) : Vous pouvez sélectionner une table de transformation qui mappe les valeurs (par exemple, mapper MSFT à Microsoft) pour les regrouper.
Pour cet exemple, une nouvelle table de transformation portant le nom De ma table de transformation est utilisée pour illustrer comment les valeurs peuvent être mappées. Cette table de transformation comporte deux colonnes :
- De : La chaîne de texte à rechercher dans votre tableau.
- To : chaîne de texte à utiliser pour remplacer la chaîne de texte entrée dans la colonne From.
Important
Il est important que la table de transformation ait les mêmes colonnes et noms de colonnes que ceux indiqués dans l’image précédente (elles doivent être nommées « From » et « To »), sinon, Power Query ne reconnaîtra pas cette table comme table de transformation et aucune transformation n’aura lieu.
À l’aide de la requête créée précédemment, double-cliquez sur l’étape des Valeurs cluster , puis, dans la boîte de dialogue Valeurs du cluster , développez les options de cluster fuzzy. Sous options de cluster flou, activez l’option Afficher les scores de similarité . Pour la table Transformation (facultatif), sélectionnez la requête qui contient la table de transformation.
Après avoir sélectionné votre table de transformation et activé l’option Afficher les scores de similarité , sélectionnez OK. Le résultat de cette opération vous donne une table qui contient les mêmes colonnes ID et Personne que la table d’origine, mais inclut également deux nouvelles colonnes appelées Cluster et Person_Cluster_Similarity. La colonne Cluster contient les versions correctement orthographiques et majuscules des noms Miguel pour les versions de Miguel et Mike, et William pour les versions de Bill, Billy et William. La colonne Person_Cluster_Similarity contient les scores de similitude pour chacun des noms.
Principes pour les tables de transformation
Vous remarquerez peut-être que le tableau de transformation de la section précédente semblait indiquer que les instances de Mike sont remplacées par Miguel et que les instances de William sont remplacées par Bill. Toutefois, dans la table résultante, les instances de Bill et de « billy » ont été remplacées par William. Dans la table de transformation, au lieu d’être un chemin direct entre De et À, la table de transformation est symétrique pendant le clustering, ce qui signifie que « mike » est équivalent à « Miguel » et vice versa. Le résultat des équivalents donnés dans la table de transformation dépend des règles suivantes :
- S’il existe une majorité de valeurs identiques, ces valeurs sont prioritaires sur les valeurs non identiques.
- S’il n’existe aucune majorité de valeurs, la valeur qui apparaît en premier est prioritaire.
Par exemple, dans le tableau d’origine utilisé dans cet article, les versions de Miguel (à la fois « miguel » et Miguel) dans la colonne Personne constituent la majorité des instances du nom Miguel et Mike. En outre, le nom Miguel avec majuscule en début de mot constitue la majorité pour le nom Miguel. Par conséquent, l’association de Miguel et ses dérivés et de Mike et ses dérivés dans la table de transformation entraîne l’utilisation du nom Miguel dans la colonne Cluster.
Toutefois, pour les noms William, Bill et « billy », il n’y a pas de majorité de valeurs, car les trois sont uniques. Étant donné que William apparaît en premier, William est utilisé dans la colonne Cluster. Si « billy » était apparu en premier dans la table, alors « billy » serait utilisé dans la colonne Cluster. En outre, étant donné qu’il n’existe aucune majorité de valeurs, la casse utilisée par les noms individuels est employée. Autrement dit, si William apparaît en premier, William avec un « W » majuscule est utilisé comme valeur de résultat ; si « billy » apparaît en premier, « billy » avec un « b » minuscule est utilisé.