Læs på engelsk

Del via


Klyngeværdier

Klyngeværdier opretter automatisk grupper med lignende værdier ved hjælp af en fuzzy matchende algoritme og knytter derefter hver kolonnes værdi til den bedst matchende gruppe. Denne transformering er nyttig, når du arbejder med data, der har mange forskellige variationer af samme værdi, og du skal kombinere værdier i ensartede grupper.

Overvej en eksempeltabel med en id-kolonne , der indeholder et sæt id'er og en personkolonne , der indeholder et sæt forskellige stavede og store bogstaver af navnene Miguel, Mike, William og Bill.

Skærmbillede af tabellen med ni rækker med poster, der indeholder forskellige stavemåder og store bogstaver i navnet Miguel og William.

I dette eksempel er det resultat, du leder efter, en tabel med en ny kolonne, der viser de rette grupper af værdier fra kolonnen Person og ikke alle de forskellige variationer af de samme ord.

Skærmbillede af de grupperede værdier som en ny kolonne kaldet Klynge i den indledende tabel.

Bemærk

Funktionen Klyngeværdier er kun tilgængelig for Power Query Online.

Opret en klyngekolonne

Hvis du vil gruppere værdier, skal du først vælge kolonnen Person , gå til fanen Tilføj kolonne på båndet og derefter vælge indstillingen Klyngeværdier .

Skærmbillede af ikonet for klyngeværdier på fanen Tilføj kolonne på båndet Online i Power Query.

I dialogboksen Klyngeværdier skal du bekræfte den kolonne, du vil bruge til at oprette klyngerne fra, og angive det nye navn på kolonnen. I dette tilfælde skal du navngive denne nye kolonneklynge.

Skærmbillede af vinduet med klyngeværdier, hvor kolonnen Person er valgt, og kolonnen Ny med navnet Klynge.

Resultatet af denne handling vises på følgende billede.

Skærmbillede af de grupperede værdier som en ny kolonne kaldet Klynge i den indledende tabel.

Bemærk

For hver klynge af værdier vælger Power Query den hyppigste forekomst fra den valgte kolonne som den "vedtagne" forekomst. Hvis der forekommer flere forekomster med samme hyppighed, vælger Power Query den første.

Brug af indstillingerne for fuzzyklynger

Følgende indstillinger er tilgængelige for klyngedannelse af værdier i en ny kolonne:

  • Tærskel for lighed (valgfrit): Denne indstilling angiver, hvordan lignende to værdier skal grupperes. Minimumindstillingen på nul (0) medfører, at alle værdier grupperes. Den maksimale indstilling på 1 tillader kun, at værdier, der stemmer nøjagtigt overens, grupperes. Standarden er 0,8.
  • Ignorer stort: Når tekststrenge sammenlignes, ignoreres forskel på små og små bogstaver. Denne indstilling er aktiveret som standard.
  • Gruppér ved at kombinere tekstdele: Algoritmen forsøger at kombinere tekstdele (f.eks. kombination af Micro og soft i Microsoft) for at gruppere værdier.
  • Vis lighedsscores: Viser lighedsscores mellem inputværdierne og de beregnede repræsentative værdier efter fuzzy klyngedannelse.
  • Transformationstabel (valgfrit): Du kan vælge en transformationstabel, der knytter værdier (f.eks. tilknytning af MSFT til Microsoft) for at gruppere dem.

I dette eksempel bruges en ny transformationstabel med navnet Min transformeringstabel til at vise, hvordan værdier kan tilknyttes. Denne transformationstabel indeholder to kolonner:

  • Fra: Den tekststreng, der skal søges efter i tabellen.
  • Til: Den tekststreng, der skal bruges til at erstatte tekststrengen i kolonnen From .

Skærmbillede af tabellen, der viser Værdierne fra Mike og William og Til for Miguel og Bill.

Vigtigt

Det er vigtigt, at transformationstabellen har de samme kolonner og kolonnenavne som vist på det forrige billede (de skal navngives "Fra" og "Til"), ellers genkender Power Query ikke denne tabel som en transformationstabel, og der vil ikke finde nogen transformation sted.

Ved hjælp af den tidligere oprettede forespørgsel skal du dobbeltklikke på trinnet Grupperede værdier og derefter udvide Fuzzy-klyngeindstillinger i dialogboksen Klyngeværdier. Under Fuzzy-klyngeindstillinger skal du aktivere indstillingen Vis lighedsscores . For Transformationstabel (valgfrit) skal du vælge den forespørgsel, der indeholder transformeringstabellen.

Skærmbillede af indstillingerne for fuzzy klynger med rullemenuen transformationstabel angivet til eksempeltransformationstabellen.

Når du har valgt din transformationstabel og aktiveret indstillingen Vis lighedsscores , skal du vælge OK. Resultatet af denne handling giver dig en tabel, der indeholder det samme id og de samme personkolonner som den oprindelige tabel, men som også indeholder to nye kolonner kaldet Cluster og Person_Cluster_Similarity. Kolonnen Cluster indeholder de korrekt stavede og store bogstaver af navnene Miguel for versioner af Miguel og Mike og William for versioner af Bill, Billy og William. Kolonnen Person_Cluster_Similarity indeholder lighedsscores for hvert af navnene.

Skærmbillede af tabellen, der indeholder den nye klynge og Person_Cluster_Similarity kolonner.

Forskrifter for transformationstabel

Du vil måske bemærke, at transformationstabellen i det forrige afsnit viste sig at angive, at forekomster af Mike er ændret til Miguel, og forekomster af William ændres til Bill. Men i den resulterende tabel blev forekomster af Bill og "billy" i stedet ændret til William. I transformationstabellen er transformationstabellen symmetrisk under klyngedannelse i stedet for at være en direkte fra til-sti, hvilket betyder, at "mike" svarer til "Miguel" og omvendt. Resultatet af de tilsvarende elementer, der er angivet i transformationstabellen, afhænger af følgende regler:

  • Hvis der er et flertal af identiske værdier, har disse værdier forrang frem for ikke-identificerede værdier.
  • Hvis der ikke er nogen flertal af værdier, har den værdi, der vises først, forrang.

I den oprindelige tabel, der bruges i denne artikel, udgør versioner af Miguel (både "miguel" og Miguel) i kolonnen Person de fleste forekomster af navnet Miguel og Mike. Desuden udgør navnet Miguel med indledende caps størstedelen af navnet Miguel. Så tilknytningen af Miguel og dens derivater og Mike og dens derivater i transformationstabellen resulterer i navnet Miguel, der bruges i kolonnen Cluster .

Men for navnene William, Bill og "billy" er der ingen flertal af værdier, da alle tre er unikke. Siden William vises først, bruges William i kolonnen Cluster . Hvis "billy" var dukket op først i tabellen, ville "billy" blive brugt i kolonnen Cluster . Da der ikke er nogen flertal af værdier, bruges det tilfælde, der bruges af de enkelte navne. Hvis William er den første, bruges William med stort "W" som resultatværdi. hvis "billy" er først, bruges "billy" med små bogstaver "b".