Training
Module
Inleiding tot clusteringmodellen met behulp van R en tidymodels - Training
Inleiding tot clusteringmodellen met behulp van R en tidymodels.
Deze browser wordt niet meer ondersteund.
Upgrade naar Microsoft Edge om te profiteren van de nieuwste functies, beveiligingsupdates en technische ondersteuning.
Clusterwaarden maken automatisch groepen met vergelijkbare waarden met behulp van een fuzzy overeenkomend algoritme en wijzen vervolgens de waarde van elke kolom toe aan de best overeenkomende groep. Deze transformatie is handig wanneer u werkt met gegevens met veel verschillende variaties van dezelfde waarde en u waarden moet combineren in consistente groepen.
Overweeg een voorbeeldtabel met een id-kolom met een set id's en een kolom Persoon met een reeks verschillende gespelde en gekapitaliseerde versies van de namen Miguel, Mike, William en Bill.
In dit voorbeeld is het resultaat dat u zoekt een tabel met een nieuwe kolom met de juiste groepen waarden uit de kolom Persoon en niet alle verschillende variaties van dezelfde woorden.
Notitie
De functie Clusterwaarden is alleen beschikbaar voor Power Query Online.
Als u waarden wilt clusteren, selecteert u eerst de kolom Persoon, gaat u naar het tabblad Kolom toevoegen op het lint en selecteert u vervolgens de optie Clusterwaarden.
Bevestig in het dialoogvenster Clusterwaarden de kolom waaruit u de clusters wilt maken en voer de nieuwe naam van de kolom in. Geef in dit geval de naam van dit nieuwe kolomcluster.
Het resultaat van die bewerking wordt weergegeven in de volgende afbeelding.
Notitie
Voor elk cluster met waarden kiest Power Query het meest voorkomende exemplaar uit de geselecteerde kolom als het 'canonieke' exemplaar. Als er meerdere exemplaren met dezelfde frequentie optreden, kiest Power Query de eerste.
De volgende opties zijn beschikbaar voor clusterwaarden in een nieuwe kolom:
In dit voorbeeld wordt een nieuwe transformatietabel met de naam Mijn transformatietabel gebruikt om te laten zien hoe waarden kunnen worden toegewezen. Deze transformatietabel heeft twee kolommen:
Belangrijk
Het is belangrijk dat de transformatietabel dezelfde kolommen en kolomnamen heeft als in de vorige afbeelding (ze moeten de naam 'Van' en 'Aan' hebben), anders herkent Power Query deze tabel niet als een transformatietabel en vindt er geen transformatie plaats.
Dubbelklik met behulp van de eerder gemaakte query op de stap Geclusterde waarden en vouw vervolgens in het dialoogvenster Clusterwaarden fuzzy clusteropties uit. Schakel onder Opties voor fuzzy cluster de optie Overeenkomstenscores weergeven in. Selecteer bij Transformatietabel (optioneel) de query met de transformatietabel.
Nadat u de transformatietabel hebt geselecteerd en de optie Overeenkomstenscores weergeven hebt ingeschakeld, selecteert u OK. Het resultaat van deze bewerking geeft u een tabel met dezelfde id en persoonkolommen als de oorspronkelijke tabel, maar bevat ook twee nieuwe kolommen met de naam Cluster en Person_Cluster_Similarity. De kolom Cluster bevat de correct gespelde en gekapitaliseerde versies van de namen Miguel voor versies van Miguel en Mike, en William voor versies van Bill, Billy en William. De kolom Person_Cluster_Similarity bevat de overeenkomstenscores voor elk van de namen.
U ziet misschien dat de transformatietabel in de vorige sectie lijkt aan te geven dat exemplaren van Mike zijn gewijzigd in Miguel en exemplaren van William worden gewijzigd in Bill. In de resulterende tabel werden echter de exemplaren van Bill en Billy gewijzigd in William. In de transformatietabel, in plaats van een direct van naar pad te zijn, is de transformatietabel symmetrisch tijdens het clusteren, wat betekent dat 'mike' gelijk is aan Miguel en vice versa. Het resultaat van de equivalenten in de transformatietabel is afhankelijk van de volgende regels:
In de oorspronkelijke tabel die in dit artikel wordt gebruikt, vormen versies van Miguel (zowel Miguel als Miguel) in de kolom Person het merendeel van de exemplaren van de naam Miguel en Mike. Daarnaast is de naam Miguel met initiële hoofdletters het grootste deel van de naam Miguel. Dus het koppelen van Miguel en zijn derivaten en Mike en de derivaten in de transformatietabel resulteert in de naam Miguel die in de kolom Cluster wordt gebruikt.
Voor de namen William, Bill en Billy is er echter geen meerderheid van de waarden omdat alle drie uniek zijn. Sinds William eerst verschijnt, wordt William gebruikt in de kolom Cluster . Als 'billy' eerst in de tabel werd weergegeven, zou 'billy' worden gebruikt in de kolom Cluster . Omdat er geen meerderheid van de waarden is, wordt ook het geval gebruikt door de afzonderlijke namen. Als William het eerst is, wordt William met een hoofdletter "W" gebruikt als resultaatwaarde; als 'billy' eerst is, wordt 'billy' met een kleine letter 'b' gebruikt.
Training
Module
Inleiding tot clusteringmodellen met behulp van R en tidymodels - Training
Inleiding tot clusteringmodellen met behulp van R en tidymodels.