Utbildning
Modul
Introduktion till klustringsmodeller med hjälp av R och tidymodels - Training
Introduktion till klustringsmodeller med hjälp av R och tidymodels.
Den här webbläsaren stöds inte längre.
Uppgradera till Microsoft Edge och dra nytta av de senaste funktionerna och säkerhetsuppdateringarna, samt teknisk support.
Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Klustervärden skapar automatiskt grupper med liknande värden med hjälp av en fuzzy-matchningsalgoritm och mappar sedan varje kolumns värde till den bäst matchade gruppen. Den här transformeringen är användbar när du arbetar med data som har många olika varianter av samma värde och du måste kombinera värden i konsekventa grupper.
Överväg en exempeltabell med en ID-kolumn som innehåller en uppsättning ID:n och en personkolumn som innehåller en uppsättning olika stavade och versaler av namnen Miguel, Mike, William och Bill.
I det här exemplet är resultatet du letar efter en tabell med en ny kolumn som visar rätt grupper av värden från kolumnen Person och inte alla olika varianter av samma ord.
Anteckning
Funktionen Klustervärden är endast tillgänglig för Power Query Online.
Om du vill använda klustervärden väljer du först kolumnen Person , går till fliken Lägg till kolumn i menyfliksområdet och väljer sedan alternativet Klustervärden .
I dialogrutan Klustervärden bekräftar du den kolumn som du vill använda för att skapa klustren från och anger det nya namnet på kolumnen. I det här fallet namnger du det här nya kolumnklustret.
Resultatet av åtgärden visas i följande bild.
Anteckning
För varje kluster med värden väljer Power Query den vanligaste instansen från den valda kolumnen som den "kanoniska" instansen. Om flera instanser inträffar med samma frekvens väljer Power Query den första.
Följande alternativ är tillgängliga för klustringsvärden i en ny kolumn:
I det här exemplet används en ny transformeringstabell med namnet Min transformeringstabell för att visa hur värden kan mappas. Den här transformeringstabellen har två kolumner:
Viktigt
Det är viktigt att transformeringstabellen har samma kolumner och kolumnnamn som i föregående bild (de måste ha namnet "Från" och "Till"), annars kommer Power Query inte att känna igen den här tabellen som en transformeringstabell och ingen transformering sker.
Med hjälp av den tidigare skapade frågan dubbelklickar du på steget Klustrade värden och expanderar sedan Fuzzy-klusteralternativ i dialogrutan Klustervärden. Under Fuzzy-klusteralternativ aktiverar du alternativet Visa likhetspoäng . För Transformeringstabell (valfritt) väljer du den fråga som har transformeringstabellen.
När du har valt transformeringstabellen och aktiverat alternativet Visa likhetspoäng väljer du OK. Resultatet av den åtgärden ger dig en tabell som innehåller samma ID - och Person-kolumner som den ursprungliga tabellen, men som även innehåller två nya kolumner som kallas Kluster och Person_Cluster_Similarity. Kolumnen Kluster innehåller de korrekt stavade och versalerade versionerna av namnen Miguel för versioner av Miguel och Mike, och William för versioner av Bill, Billy och William. Kolumnen Person_Cluster_Similarity innehåller likhetspoängen för vart och ett av namnen.
Du kanske märker att transformeringstabellen i föregående avsnitt verkade indikera att instanser av Mike ändras till Miguel och instanser av William ändras till Bill. Men i den resulterande tabellen ändrades instanserna av Bill och "billy" istället till William. I transformeringstabellen, i stället för att vara en direkt från till-sökväg, är transformeringstabellen symmetrisk under klustring, vilket innebär att "mike" motsvarar "Miguel" och vice versa. Resultatet av de motsvarigheter som anges i transformeringstabellen beror på följande regler:
I den ursprungliga tabellen som används i den här artikeln utgör versioner av Miguel (både "miguel" och Miguel) i kolumnen Person majoriteten av instanserna av namnet Miguel och Mike. Dessutom utgör namnet Miguel med initiala caps majoriteten av namnet Miguel. Så att associera Miguel och dess derivat och Mike och dess derivat i transformeringstabellen resulterar i namnet Miguel som används i kolumnen Kluster .
Men för namnen William, Bill och "billy" finns det ingen majoritet av värdena eftersom alla tre är unika. Eftersom William visas först används William i kolumnen Kluster . Om "billy" hade dykt upp först i tabellen skulle "billy" användas i kolumnen Kluster . Eftersom det inte finns någon majoritet av värdena används även det fall som används av de enskilda namnen. Om William är först används William med versalen "W" som resultatvärde. om "billy" är först används "billy" med ett gemener "b".
Utbildning
Modul
Introduktion till klustringsmodeller med hjälp av R och tidymodels - Training
Introduktion till klustringsmodeller med hjälp av R och tidymodels.