Klyngeverdier
Klyngeverdier oppretter automatisk grupper med lignende verdier ved hjelp av en fuzzy matching-algoritme, og tilordner deretter hver kolonnes verdi til den best samsvarende gruppen. Denne transformasjonen er nyttig når du arbeider med data som har mange forskjellige variasjoner av samme verdi, og du må kombinere verdier i konsekvente grupper.
Vurder en eksempeltabell med en ID-kolonne som inneholder et sett med ID-er og en Person-kolonne som inneholder et sett med ulike stavede og store bokstaver av navnene Miguel, Mike, William og Bill.
I dette eksemplet er resultatet du leter etter, en tabell med en ny kolonne som viser de riktige verdigruppene fra Person-kolonnen , og ikke alle de forskjellige variasjonene av de samme ordene.
Obs!
Funksjonen for klyngeverdier er bare tilgjengelig for Power Query Online.
Hvis du vil gruppere verdier, velger du først Person-kolonnen , går til Fanen Legg til kolonne på båndet, og deretter velger du alternativet Klyngeverdier .
Bekreft kolonnen du vil bruke til å opprette klyngene fra, i dialogboksen Klyngeverdier, og skriv inn det nye navnet på kolonnen. I dette tilfellet kan du gi navn til denne nye kolonneklyngen.
Resultatet av denne operasjonen vises på bildet nedenfor.
Obs!
For hver verdiklynge velger Power Query den hyppigste forekomsten fra den valgte kolonnen som den "kanoniske" forekomsten. Hvis flere forekomster forekommer med samme frekvens, velger Power Query den første.
Følgende alternativer er tilgjengelige for grupperingsverdier i en ny kolonne:
- Likhetsterskel (valgfritt): Dette alternativet angir hvor lik to verdier må grupperes sammen. Minimumsinnstillingen null (0) fører til at alle verdier grupperes sammen. Den maksimale innstillingen på 1 tillater bare verdier som samsvarer nøyaktig for å grupperes sammen. Standardverdien er 0,8.
- Ignorer store bokstaver: Når tekststrenger sammenlignes, ignoreres saken. Dette alternativet er aktivert som standard.
- Grupper ved å kombinere tekstdeler: Algoritmen prøver å kombinere tekstdeler (for eksempel kombinere mikro og myk inn i Microsoft) til gruppeverdier.
- Vis likhetsresultater: Viser likhetsresultater mellom inndataverdiene og beregnede representative verdier etter fuzzy-klynger.
- Transformasjonstabell (valgfritt): Du kan velge en transformasjonstabell som tilordner verdier (for eksempel tilordning av MSFT til Microsoft) for å gruppere dem sammen.
I dette eksemplet brukes en ny transformasjonstabell med navnet Min transformering-tabell til å demonstrere hvordan verdier kan tilordnes. Denne transformasjonstabellen har to kolonner:
- Fra: Tekststrengen du vil se etter i tabellen.
- Til: Tekststrengen som skal brukes til å erstatte tekststrengen i Fra-kolonnen .
Viktig
Det er viktig at transformasjonstabellen har de samme kolonnene og kolonnenavnene som vist i det forrige bildet (de må hete «Fra» og «Til»), ellers gjenkjenner ikke Power Query denne tabellen som en transformasjonstabell, og ingen transformasjon vil finne sted.
Ved hjelp av den tidligere opprettede spørringen dobbeltklikker du trinnet Grupperte verdier, og deretter utvider du alternativer for fuzzy-klynger i dialogboksen Klyngeverdier. Aktiver alternativet Vis likhetsresultater under Alternativer for fuzzy-klynger. For transformasjonstabell (valgfritt) velger du spørringen som har transformeringstabellen.
Når du har valgt transformasjonstabellen og aktivert alternativet Vis resultater for likhetsresultater , velger du OK. Resultatet av denne operasjonen gir deg en tabell som inneholder de samme ID - og Person-kolonnene som den opprinnelige tabellen, men som også inneholder to nye kolonner kalt Klynge og Person_Cluster_Similarity. Klyngekolonnen inneholder riktig stavede og store versjoner av navnene Miguel for versjoner av Miguel og Mike, og William for versjoner av Bill, Billy og William. Kolonnen Person_Cluster_Similarity inneholder likhetsresultatene for hvert av navnene.
Du legger kanskje merke til at transformasjonstabellen i den forrige delen så ut til å indikere at forekomster av Mike er endret til Miguel, og forekomster av William endres til Bill. Men i det resulterende bordet ble forekomstene av Bill og "billy" i stedet endret til William. I transformasjonstabellen, i stedet for å være en direkte Fra til til-bane , er transformasjonstabellen symmetrisk under klynger, noe som betyr at «mike» tilsvarer «Miguel» og omvendt. Resultatet av ekvivalentene som er angitt i transformasjonstabellen, avhenger av følgende regler:
- Hvis det er et flertall av identiske verdier, har disse verdiene prioritet over ikke-identiske verdier.
- Hvis det ikke finnes et flertall av verdiene, har verdien som vises først, prioritet.
I den opprinnelige tabellen som brukes i denne artikkelen, utgjør for eksempel versjoner av Miguel (både «miguel» og Miguel) i Person-kolonnen de fleste forekomstene av navnet Miguel og Mike. I tillegg utgjør navnet Miguel med innledende caps mesteparten av navnet Miguel. Så å knytte Miguel og dets derivater og Mike og dets derivater i transformeringstabellen resulterer i navnet Miguel som brukes i klyngekolonnen .
Men for navnene William, Bill og "billy", er det ingen flertall av verdiene siden alle tre er unike. Siden William dukker opp først, brukes William i klyngekolonnen . Hvis "billy" hadde dukket opp først i tabellen, så "billy" ville bli brukt i Cluster kolonnen. Fordi det ikke finnes noen flertallsverdier, brukes også saken som brukes av enkeltnavnene. Hvis William er først, brukes William med store bokstaver «W» som resultatverdi. Hvis «billy» er først, brukes «billy» med små bokstaver «b».