Les på engelsk

Del via


Klyngeverdier

Klyngeverdier oppretter automatisk grupper med lignende verdier ved hjelp av en fuzzy matching-algoritme, og tilordner deretter hver kolonnes verdi til den best samsvarende gruppen. Denne transformasjonen er nyttig når du arbeider med data som har mange forskjellige variasjoner av samme verdi, og du må kombinere verdier i konsekvente grupper.

Vurder en eksempeltabell med en ID-kolonne som inneholder et sett med ID-er og en Person-kolonne som inneholder et sett med ulike stavede og store bokstaver av navnene Miguel, Mike, William og Bill.

Skjermbilde av tabellen med ni rader med oppføringer som inneholder ulike stavemåter og store bokstaver i navnet Miguel og William.

I dette eksemplet er resultatet du leter etter, en tabell med en ny kolonne som viser de riktige verdigruppene fra Person-kolonnen , og ikke alle de forskjellige variasjonene av de samme ordene.

Skjermbilde av de grupperte verdiene som en ny kolonne kalt Klynge i den første tabellen.

Obs!

Funksjonen for klyngeverdier er bare tilgjengelig for Power Query Online.

Opprette en klyngekolonne

Hvis du vil gruppere verdier, velger du først Person-kolonnen , går til Fanen Legg til kolonne på båndet, og deretter velger du alternativet Klyngeverdier .

Skjermbilde av ikonet for klyngeverdier i fanen Legg til kolonne på båndet på Nettet i Power Query.

Bekreft kolonnen du vil bruke til å opprette klyngene fra, i dialogboksen Klyngeverdier, og skriv inn det nye navnet på kolonnen. I dette tilfellet kan du gi navn til denne nye kolonneklyngen.

Skjermbilde av vinduet for klyngeverdier med kolonnen Person valgt og Ny-kolonnen kalt Klynge.

Resultatet av denne operasjonen vises på bildet nedenfor.

Skjermbilde av de grupperte verdiene som en ny kolonne kalt Klynge i den første tabellen.

Obs!

For hver verdiklynge velger Power Query den hyppigste forekomsten fra den valgte kolonnen som den "kanoniske" forekomsten. Hvis flere forekomster forekommer med samme frekvens, velger Power Query den første.

Bruke alternativene for fuzzy-klynge

Følgende alternativer er tilgjengelige for grupperingsverdier i en ny kolonne:

  • Likhetsterskel (valgfritt): Dette alternativet angir hvor lik to verdier må grupperes sammen. Minimumsinnstillingen null (0) fører til at alle verdier grupperes sammen. Den maksimale innstillingen på 1 tillater bare verdier som samsvarer nøyaktig for å grupperes sammen. Standardverdien er 0,8.
  • Ignorer store bokstaver: Når tekststrenger sammenlignes, ignoreres saken. Dette alternativet er aktivert som standard.
  • Grupper ved å kombinere tekstdeler: Algoritmen prøver å kombinere tekstdeler (for eksempel kombinere mikro og myk inn i Microsoft) til gruppeverdier.
  • Vis likhetsresultater: Viser likhetsresultater mellom inndataverdiene og beregnede representative verdier etter fuzzy-klynger.
  • Transformasjonstabell (valgfritt): Du kan velge en transformasjonstabell som tilordner verdier (for eksempel tilordning av MSFT til Microsoft) for å gruppere dem sammen.

I dette eksemplet brukes en ny transformasjonstabell med navnet Min transformering-tabell til å demonstrere hvordan verdier kan tilordnes. Denne transformasjonstabellen har to kolonner:

  • Fra: Tekststrengen du vil se etter i tabellen.
  • Til: Tekststrengen som skal brukes til å erstatte tekststrengen i Fra-kolonnen .

Skjermbilde av tabellen som viser Fra-verdiene mike og William, og Til-verdiene for Miguel og Bill.

Viktig

Det er viktig at transformasjonstabellen har de samme kolonnene og kolonnenavnene som vist i det forrige bildet (de må hete «Fra» og «Til»), ellers gjenkjenner ikke Power Query denne tabellen som en transformasjonstabell, og ingen transformasjon vil finne sted.

Ved hjelp av den tidligere opprettede spørringen dobbeltklikker du trinnet Grupperte verdier, og deretter utvider du alternativer for fuzzy-klynger i dialogboksen Klyngeverdier. Aktiver alternativet Vis likhetsresultater under Alternativer for fuzzy-klynger. For transformasjonstabell (valgfritt) velger du spørringen som har transformeringstabellen.

Skjermbilde av de uklare klyngealternativene med rullegardinmenyen transformasjonstabell satt til eksempeltransformeringstabellen.

Når du har valgt transformasjonstabellen og aktivert alternativet Vis resultater for likhetsresultater , velger du OK. Resultatet av denne operasjonen gir deg en tabell som inneholder de samme ID - og Person-kolonnene som den opprinnelige tabellen, men som også inneholder to nye kolonner kalt Klynge og Person_Cluster_Similarity. Klyngekolonnen inneholder riktig stavede og store versjoner av navnene Miguel for versjoner av Miguel og Mike, og William for versjoner av Bill, Billy og William. Kolonnen Person_Cluster_Similarity inneholder likhetsresultatene for hvert av navnene.

Skjermbilde av tabellen som inneholder den nye klyngen og Person_Cluster_Similarity kolonner.

Forskrifter for transformasjonstabell

Du legger kanskje merke til at transformasjonstabellen i den forrige delen så ut til å indikere at forekomster av Mike er endret til Miguel, og forekomster av William endres til Bill. Men i det resulterende bordet ble forekomstene av Bill og "billy" i stedet endret til William. I transformasjonstabellen, i stedet for å være en direkte Fra til til-bane , er transformasjonstabellen symmetrisk under klynger, noe som betyr at «mike» tilsvarer «Miguel» og omvendt. Resultatet av ekvivalentene som er angitt i transformasjonstabellen, avhenger av følgende regler:

  • Hvis det er et flertall av identiske verdier, har disse verdiene prioritet over ikke-identiske verdier.
  • Hvis det ikke finnes et flertall av verdiene, har verdien som vises først, prioritet.

I den opprinnelige tabellen som brukes i denne artikkelen, utgjør for eksempel versjoner av Miguel (både «miguel» og Miguel) i Person-kolonnen de fleste forekomstene av navnet Miguel og Mike. I tillegg utgjør navnet Miguel med innledende caps mesteparten av navnet Miguel. Så å knytte Miguel og dets derivater og Mike og dets derivater i transformeringstabellen resulterer i navnet Miguel som brukes i klyngekolonnen .

Men for navnene William, Bill og "billy", er det ingen flertall av verdiene siden alle tre er unike. Siden William dukker opp først, brukes William i klyngekolonnen . Hvis "billy" hadde dukket opp først i tabellen, så "billy" ville bli brukt i Cluster kolonnen. Fordi det ikke finnes noen flertallsverdier, brukes også saken som brukes av enkeltnavnene. Hvis William er først, brukes William med store bokstaver «W» som resultatverdi. Hvis «billy» er først, brukes «billy» med små bokstaver «b».