Hodnoty klastra

Článok
04. 06. 2024

Hodnoty klastra automaticky vytvárajú skupiny s podobnými hodnotami pomocou približnej zhodného algoritmu a potom priraďujú hodnoty každého stĺpca k najlepšie zladenej skupine. Táto transformácia je užitočná vtedy, keď pracujete s údajmi s mnohými rôznymi variáciami rovnakej hodnoty a potrebujete hodnoty skombinovať do konzistentných skupín.

Predstavte si ukážkovú tabuľku so stĺpcom id , ktorý obsahuje množinu id a stĺpec Person (Osoba ) obsahujúci množinu rozličných hláskovaných a veľkých písmen mien Miguel, Mike, William a Bill.

Snímka obrazovky tabuľky s deviatimi riadkami položiek, ktoré obsahujú rôzne pravopisy a veľké písmená mena Miguel a William.

Výsledok, ktorý v tomto príklade hľadáte, je tabuľka s novým stĺpcom zobrazujúca správne skupiny hodnôt zo stĺpca Osoba a nie všetky odlišné variácie rovnakých slov.

Snímka obrazovky skupinových hodnôt ako nového stĺpca s názvom Klaster v počiatočnej tabuľke.

Poznámka

Funkcia Hodnoty klastra je k dispozícii len pre Power Query Online.

Vytvorenie stĺpca klastra

Ak chcete hodnoty klastra, najprv vyberte stĺpec Osoba , na páse s nástrojmi prejdite na kartu Pridať stĺpec a potom vyberte možnosť Hodnoty klastra.

V dialógovom okne Hodnoty klastra potvrďte stĺpec, z ktorému chcete vytvoriť klastre, a zadajte nový názov stĺpca. V tomto prípade pomenujte tento nový stĺpec Cluster.

Snímka obrazovky znázorňujúca okno hodnôt klastra s vybratým stĺpcom Osoba a stĺpcom Nový s názvom klastr.

Výsledok tejto operácie je zobrazený na nasledujúcom obrázku.

Snímka obrazovky skupinových hodnôt ako nového stĺpca s názvom Klaster v počiatočnej tabuľke.

Poznámka

Pre každý klaster hodnôt vyberie Power Query najčastejšie inštanciu z vybratého stĺpca ako "kanonickú" inštanciu. Ak sa vyskytujú viaceré inštancie s rovnakou frekvenciou, Power Query vyberie prvú inštanciu.

Použitie možností približného klastra

Pre hodnoty klastrovania v novom stĺpci sú k dispozícii nasledujúce možnosti:

Prahová hodnota podobnosti (voliteľné): Táto možnosť označuje, ako musia byť podobné dve hodnoty zoskupené. Minimálnym nastavením nuly (0) sa zoskupia všetky hodnoty. Maximálne nastavenie 1 umožňuje zoskupiť hodnoty, ktoré sa presne zhodujú. Predvolená hodnota je 0,8.
Ignorovať malé a veľké písmená: Pri porovnávaní textových reťazcov sa veľké a malé písmená ignorujú. Táto možnosť je predvolene zapnutá.
Zoskupenie skombinovaním častí textu: Algoritmus sa snaží skombinovať textové časti (ako napríklad kombináciu mikro a mäkkej do spoločnosti Microsoft) a zoskupiť hodnoty.
Zobraziť skóre podobnosti: zobrazí skóre podobnosti medzi vstupnými hodnotami a vypočítavaným reprezentatívnymi hodnotami po približnom klastrovaní.
Tabuľka transformácie (voliteľné): Môžete vybrať tabuľku transformácie, ktorá mapuje hodnoty (napríklad mapovanie MSFT do spoločnosti Microsoft) a zoskupí ich.

V tomto príklade sa na znázornenie spôsobu mapovania hodnôt použije nová tabuľka transformácie s názvom Moja tabuľka transformácie. Táto tabuľka transformácie má dva stĺpce:

Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
Ak chcete: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od .

Snímka obrazovky tabuľky zobrazujúca hodnoty mikrofónu a Williama a Do hodnôt Miguela a Billa.

Dôležité

Je dôležité, aby mala tabuľka transformácií rovnaké názvy stĺpcov a stĺpcov ako na predchádzajúcom obrázku (musia mať názov "Od" a "Do"), v opačnom prípade Power Query túto tabuľku nerozpozná ako tabuľku transformácie a nedôjde k žiadnemu transformácii.

Pomocou predtým vytvoreného dotazu dvakrát kliknite na krok Skupinové hodnoty a potom v dialógovom okne Hodnoty klastra rozbaľte možnosti klastra Fuzzy. V časti Možnosti klastra Približné povoľte možnosť Zobraziť skóre podobnosti. V časti Tabuľka transformácie (voliteľné) vyberte dotaz obsahujúci tabuľku transformácie.

Snímka obrazovky s približnými možnosťami klastra s rozbaľovacou ponukou tabuľky transformácie nastavenou na tabuľku ukážkovej transformácie.

Po výbere tabuľky transformácie a povolení možnosti Zobraziť skóre podobnosti vyberte položku OK. Výsledkom tejto operácie je tabuľka, ktorá obsahuje rovnaké ID a stĺpce Osoba ako pôvodná tabuľka, ale obsahuje aj dva nové stĺpce s názvom Klaster a Person_Cluster_Similarity. Stĺpec Cluster obsahuje správne napísané a veľké písmená mien Miguel pre verzie Miguel a Mike, a William pre verzie Bill, Billy a William. Stĺpec Person_Cluster_Similarity obsahuje skóre podobnosti pre každý z názvov.

Snímka obrazovky tabuľky obsahujúcej nový klaster a Person_Cluster_Similarity stĺpce.

Predbežné upozornenia tabuľky transformácie

Možno si všimnete, že tabuľka transformácie v predchádzajúcej časti znázorňujúca, že inštancie mikrofónu sa zmenia na Miguel a inštancie Williama sa zmenia na Bill. Vo výslednej tabuľke sa však inštancie Billa a "billy" namiesto toho zmenili na Williama. V tabuľke transformácie je tabuľka transformácie namiesto priamej cesty "From to path" (Od k) symetrická počas klastrovania, čo znamená, že "mike" zodpovedá funkcii Miguel a naopak. Výsledok ekvivalentov uvedených v tabuľke transformácie závisí od nasledujúcich pravidiel:

Ak existuje väčšina rovnakých hodnôt, tieto hodnoty majú prednosť pred neidentiálnymi hodnotami.
Ak nie je väčšina hodnôt, hodnota, ktorá sa zobrazí ako prvá, má prednosť.

V pôvodnej tabuľke použitej v tomto článku napríklad verzie miguela ("miguel" aj Miguel) v stĺpci Osoba tvoria väčšinu inštancií mena Miguel a Mike. Okrem toho názov Miguel s počiatočnými viečkami tvorí väčšinu názvu Miguel. Ak tak priradíte funkciu Miguel a jej deriváty a Mike a jeho deriváty v tabuľke transformácie, výsledkom bude použitie názvu Miguel v stĺpci klastra .

Avšak, pre mená William, Bill, a "billy", nie je žiadna väčšina hodnôt, pretože všetky tri sú jedinečné. Keďže William sa objaví ako prvý, william sa používa v stĺpci Cluster . Ak sa v tabuľke ako prvý objavil "billy", v stĺpci Klastre by sa použilo "billy". A keďže v nej nie je väčšina hodnôt, použije sa prípad používaný jednotlivými názvami. To znamená, že ak william je prvý, william s veľkými písmenami "W" sa používa ako výsledná hodnota; ak "billy" je prvý, "billy" s malým písmenom "b" sa používa.

Zdieľať cez

Hodnoty klastra

Vytvorenie stĺpca klastra

Použitie možností približného klastra

Predbežné upozornenia tabuľky transformácie

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Hodnoty klastra

Vytvorenie stĺpca klastra

Použitie možností približného klastra

Predbežné upozornenia tabuľky transformácie

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií