Klustervärden

Klustervärden skapar automatiskt grupper med liknande värden med hjälp av en fuzzy-matchningsalgoritm och mappar sedan varje kolumns värde till den bäst matchade gruppen. Den här transformeringen är användbar när du arbetar med data som har många olika varianter av samma värde och du måste kombinera värden i konsekventa grupper.

Överväg en exempeltabell med en ID-kolumn som innehåller en uppsättning ID:n och en personkolumn som innehåller en uppsättning olika stavade och versaler av namnen Miguel, Mike, William och Bill.

Skärmbild av tabellen med nio rader av poster som innehåller olika stavningar och versaliseringar av namnen Miguel och William.

I det här exemplet är resultatet du letar efter en tabell med en ny kolumn som visar rätt grupper av värden från kolumnen Person och inte alla olika varianter av samma ord.

Skärmbild av de klustrade värdena som en ny kolumn kallad Kluster i den ursprungliga tabellen.

Anmärkning

Funktionen Klustervärden är endast tillgänglig för Power Query Online.

Skapa en klusterkolumn

Om du vill använda klustervärden väljer du först kolumnen Person , går till fliken Lägg till kolumn i menyfliksområdet och väljer sedan alternativet Klustervärden .

I dialogrutan Klustervärden bekräftar du den kolumn som du vill använda för att skapa klustren från och anger det nya namnet på kolumnen. I det här fallet namnger du det här nya kolumnklustret.

Skärmbild av fönstret klustervärden med kolumnen Person vald och en ny kolumn med namnet Kluster.

Resultatet av åtgärden visas i följande bild.

Skärmbild av klustrade värden som en ny kolumn med namnet Kluster i den ursprungliga tabellen.

Anmärkning

För varje kluster med värden väljer Power Query den vanligaste instansen från den valda kolumnen som den "kanoniska" instansen. Om flera instanser förekommer med samma frekvens väljer Power Query den första.

Använda fuzzy-klusteralternativen

Följande alternativ är tillgängliga för klustringsvärden i en ny kolumn:

Likhetströskel (valfritt): Det här alternativet anger hur lika två värden måste vara för att grupperas tillsammans. Den minsta inställningen noll (0) gör att alla värden grupperas tillsammans. Den maximala inställningen på 1 tillåter endast att värden som matchar exakt grupperas tillsammans. Standardvärdet är 0,8.
Ignorera skiftläge: När textsträngar jämförs ignoreras skiftläget. Det här alternativet är aktiverat som standard.
Gruppera genom att kombinera textdelar: Algoritmen försöker kombinera textdelar (till exempel att kombinera Micro och mjuk till Microsoft) för att gruppera värden.
Visa likhetspoäng: Visar likhetspoäng mellan indatavärdena och beräknade representativa värden efter fuzzy-klustring.
Transformeringstabell (valfritt): Du kan välja en transformeringstabell som mappar värden (till exempel mappning av MSFT till Microsoft) för att gruppera dem.

I det här exemplet används en ny transformeringstabell med namnet Min transformeringstabell för att visa hur värden kan mappas. Den här transformeringstabellen har två kolumner:

Från: Textsträngen som du vill söka efter i tabellen.
Till: Textsträngen som ska användas för att ersätta textsträngen i kolumnen Från .

Skärmbild av tabellen som visar From-värdena för Mike och William, och To-värdena för Miguel och Bill.

Viktigt!

Det är viktigt att transformeringstabellen har samma kolumner och kolumnnamn som i föregående bild (de måste ha namnet "Från" och "Till"), annars kommer Power Query inte att känna igen den här tabellen som en transformeringstabell och ingen transformering sker.

Med hjälp av den tidigare skapade frågan dubbelklickar du på steget Klustrade värden och expanderar sedan Fuzzy-klusteralternativ i dialogrutan Klustervärden. Under Fuzzy-klusteralternativ aktiverar du alternativet Visa likhetspoäng . För Transformeringstabell (valfritt) väljer du den fråga som har transformeringstabellen.

Skärmbild av fuzzy-klusteralternativen med den nedrullningsbara menyn för transformeringstabellen inställd på exempeltransformeringstabellen.

När du har valt transformeringstabellen och aktiverat alternativet Visa likhetspoäng väljer du OK. Resultatet av den åtgärden ger dig en tabell som innehåller samma ID - och Person-kolumner som den ursprungliga tabellen, men som även innehåller två nya kolumner som heter Kluster och Person_Cluster_Similarity. Kolumnen Kluster innehåller de korrekt stavade och versalerade versionerna av namnen Miguel för versioner av Miguel och Mike, och William för versioner av Bill, Billy och William. Kolumnen Person_Cluster_Similarity innehåller likhetspoängen för vart och ett av namnen.

Skärmbild av tabellen som innehåller de nya kolumnerna Kluster och Person_Cluster_Similarity.

Principer för transformeringstabell

Du kanske märker att transformeringstabellen i föregående avsnitt verkade indikera att instanser av Mike ändras till Miguel och instanser av William ändras till Bill. Emellertid ändrades i den resulterande tabellen instanserna av Bill och "billy" till William istället. I transformeringstabellen är det så att, i stället för att vara en direkt från-till-sökväg, är transformeringstabellen symmetrisk under klustringsprocessen, vilket innebär att "Mike" motsvarar "Miguel" och vice versa. Resultatet av de motsvarigheter som anges i transformeringstabellen beror på följande regler:

Om det finns en majoritet av identiska värden har dessa värden företräde framför icke-identifierade värden.
Om det inte finns någon majoritet av värdena har det värde som visas först företräde.

I den ursprungliga tabellen som används i den här artikeln utgör versioner av Miguel (både "miguel" och Miguel) i kolumnen Person majoriteten av instanserna av namnet Miguel och Mike. Dessutom utgör namnet Miguel med inledande versaler majoriteten av namnet Miguel. Så att associera Miguel och dess derivat och Mike och dess derivat i transformeringstabellen resulterar i namnet Miguel som används i kolumnen Kluster .

Men för namnen William, Bill och "billy" finns det ingen majoritet av värdena eftersom alla tre är unika. Eftersom William visas först används William i kolumnen Kluster . Om "billy" hade dykt upp först i tabellen skulle "billy" användas i kolumnen Kluster . Eftersom det inte finns någon majoritet bland värdena används den bokstavsstil som används av de enskilda namnen. Om William är först, används William med en versal "W" som resultatvärde; och om "billy" är först, används "billy" med en gemen "b".

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-26

Dela via

Klustervärden

Skapa en klusterkolumn

Använda fuzzy-klusteralternativen

Principer för transformeringstabell

Relaterat innehåll

Feedback

Ytterligare resurser