Klustervärden
Klustervärden skapar automatiskt grupper med liknande värden med hjälp av en fuzzy-matchningsalgoritm och mappar sedan varje kolumns värde till den bäst matchade gruppen. Den här transformeringen är användbar när du arbetar med data som har många olika varianter av samma värde och du måste kombinera värden i konsekventa grupper.
Överväg en exempeltabell med en ID-kolumn som innehåller en uppsättning ID:n och en personkolumn som innehåller en uppsättning olika stavade och versaler av namnen Miguel, Mike, William och Bill.
I det här exemplet är resultatet du letar efter en tabell med en ny kolumn som visar rätt grupper av värden från kolumnen Person och inte alla olika varianter av samma ord.
Anteckning
Funktionen Klustervärden är endast tillgänglig för Power Query Online.
Om du vill använda klustervärden väljer du först kolumnen Person , går till fliken Lägg till kolumn i menyfliksområdet och väljer sedan alternativet Klustervärden .
I dialogrutan Klustervärden bekräftar du den kolumn som du vill använda för att skapa klustren från och anger det nya namnet på kolumnen. I det här fallet namnger du det här nya kolumnklustret.
Resultatet av åtgärden visas i följande bild.
Anteckning
För varje kluster med värden väljer Power Query den vanligaste instansen från den valda kolumnen som den "kanoniska" instansen. Om flera instanser inträffar med samma frekvens väljer Power Query den första.
Följande alternativ är tillgängliga för klustringsvärden i en ny kolumn:
- Likhetströskel (valfritt): Det här alternativet anger hur lika två värden måste vara för att grupperas tillsammans. Den minsta inställningen noll (0) gör att alla värden grupperas tillsammans. Den maximala inställningen på 1 tillåter endast att värden som matchar exakt grupperas tillsammans. Standardvärdet är 0,8.
- Ignorera skiftläge: När textsträngar jämförs ignoreras skiftläget. Det här alternativet är aktiverat som standard.
- Gruppera genom att kombinera textdelar: Algoritmen försöker kombinera textdelar (till exempel att kombinera Micro och mjuk till Microsoft) för att gruppera värden.
- Visa likhetspoäng: Visar likhetspoäng mellan indatavärdena och beräknade representativa värden efter fuzzy-klustring.
- Transformeringstabell (valfritt): Du kan välja en transformeringstabell som mappar värden (till exempel mappning av MSFT till Microsoft) för att gruppera dem.
I det här exemplet används en ny transformeringstabell med namnet Min transformeringstabell för att visa hur värden kan mappas. Den här transformeringstabellen har två kolumner:
- Från: Textsträngen som du vill söka efter i tabellen.
- Till: Textsträngen som ska användas för att ersätta textsträngen i kolumnen Från .
Viktigt
Det är viktigt att transformeringstabellen har samma kolumner och kolumnnamn som i föregående bild (de måste ha namnet "Från" och "Till"), annars kommer Power Query inte att känna igen den här tabellen som en transformeringstabell och ingen transformering sker.
Med hjälp av den tidigare skapade frågan dubbelklickar du på steget Klustrade värden och expanderar sedan Fuzzy-klusteralternativ i dialogrutan Klustervärden. Under Fuzzy-klusteralternativ aktiverar du alternativet Visa likhetspoäng . För Transformeringstabell (valfritt) väljer du den fråga som har transformeringstabellen.
När du har valt transformeringstabellen och aktiverat alternativet Visa likhetspoäng väljer du OK. Resultatet av den åtgärden ger dig en tabell som innehåller samma ID - och Person-kolumner som den ursprungliga tabellen, men som även innehåller två nya kolumner som kallas Kluster och Person_Cluster_Similarity. Kolumnen Kluster innehåller de korrekt stavade och versalerade versionerna av namnen Miguel för versioner av Miguel och Mike, och William för versioner av Bill, Billy och William. Kolumnen Person_Cluster_Similarity innehåller likhetspoängen för vart och ett av namnen.
Du kanske märker att transformeringstabellen i föregående avsnitt verkade indikera att instanser av Mike ändras till Miguel och instanser av William ändras till Bill. Men i den resulterande tabellen ändrades instanserna av Bill och "billy" istället till William. I transformeringstabellen, i stället för att vara en direkt från till-sökväg, är transformeringstabellen symmetrisk under klustring, vilket innebär att "mike" motsvarar "Miguel" och vice versa. Resultatet av de motsvarigheter som anges i transformeringstabellen beror på följande regler:
- Om det finns en majoritet av identiska värden har dessa värden företräde framför icke-identifierade värden.
- Om det inte finns någon majoritet av värdena har det värde som visas först företräde.
I den ursprungliga tabellen som används i den här artikeln utgör versioner av Miguel (både "miguel" och Miguel) i kolumnen Person majoriteten av instanserna av namnet Miguel och Mike. Dessutom utgör namnet Miguel med initiala caps majoriteten av namnet Miguel. Så att associera Miguel och dess derivat och Mike och dess derivat i transformeringstabellen resulterar i namnet Miguel som används i kolumnen Kluster .
Men för namnen William, Bill och "billy" finns det ingen majoritet av värdena eftersom alla tre är unika. Eftersom William visas först används William i kolumnen Kluster . Om "billy" hade dykt upp först i tabellen skulle "billy" användas i kolumnen Kluster . Eftersom det inte finns någon majoritet av värdena används även det fall som används av de enskilda namnen. Om William är först används William med versalen "W" som resultatvärde. om "billy" är först används "billy" med ett gemener "b".