Hodnoty klastra
Hodnoty klastra automaticky vytvárajú skupiny s podobnými hodnotami pomocou približnej zhodného algoritmu a potom priraďujú hodnoty každého stĺpca k najlepšie zladenej skupine. Táto transformácia je užitočná vtedy, keď pracujete s údajmi s mnohými rôznymi variáciami rovnakej hodnoty a potrebujete hodnoty skombinovať do konzistentných skupín.
Predstavte si ukážkovú tabuľku so stĺpcom id , ktorý obsahuje množinu id a stĺpec Person (Osoba ) obsahujúci množinu rozličných hláskovaných a veľkých písmen mien Miguel, Mike, William a Bill.
Výsledok, ktorý v tomto príklade hľadáte, je tabuľka s novým stĺpcom zobrazujúca správne skupiny hodnôt zo stĺpca Osoba a nie všetky odlišné variácie rovnakých slov.
Poznámka
Funkcia Hodnoty klastra je k dispozícii len pre Power Query Online.
Ak chcete hodnoty klastra, najprv vyberte stĺpec Osoba , na páse s nástrojmi prejdite na kartu Pridať stĺpec a potom vyberte možnosť Hodnoty klastra.
V dialógovom okne Hodnoty klastra potvrďte stĺpec, z ktorému chcete vytvoriť klastre, a zadajte nový názov stĺpca. V tomto prípade pomenujte tento nový stĺpec Cluster.
Výsledok tejto operácie je zobrazený na nasledujúcom obrázku.
Poznámka
Pre každý klaster hodnôt vyberie Power Query najčastejšie inštanciu z vybratého stĺpca ako "kanonickú" inštanciu. Ak sa vyskytujú viaceré inštancie s rovnakou frekvenciou, Power Query vyberie prvú inštanciu.
Pre hodnoty klastrovania v novom stĺpci sú k dispozícii nasledujúce možnosti:
- Prahová hodnota podobnosti (voliteľné): Táto možnosť označuje, ako musia byť podobné dve hodnoty zoskupené. Minimálnym nastavením nuly (0) sa zoskupia všetky hodnoty. Maximálne nastavenie 1 umožňuje zoskupiť hodnoty, ktoré sa presne zhodujú. Predvolená hodnota je 0,8.
- Ignorovať malé a veľké písmená: Pri porovnávaní textových reťazcov sa veľké a malé písmená ignorujú. Táto možnosť je predvolene zapnutá.
- Zoskupenie skombinovaním častí textu: Algoritmus sa snaží skombinovať textové časti (ako napríklad kombináciu mikro a mäkkej do spoločnosti Microsoft) a zoskupiť hodnoty.
- Zobraziť skóre podobnosti: zobrazí skóre podobnosti medzi vstupnými hodnotami a vypočítavaným reprezentatívnymi hodnotami po približnom klastrovaní.
- Tabuľka transformácie (voliteľné): Môžete vybrať tabuľku transformácie, ktorá mapuje hodnoty (napríklad mapovanie MSFT do spoločnosti Microsoft) a zoskupí ich.
V tomto príklade sa na znázornenie spôsobu mapovania hodnôt použije nová tabuľka transformácie s názvom Moja tabuľka transformácie. Táto tabuľka transformácie má dva stĺpce:
- Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
- Ak chcete: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od .
Dôležité
Je dôležité, aby mala tabuľka transformácií rovnaké názvy stĺpcov a stĺpcov ako na predchádzajúcom obrázku (musia mať názov "Od" a "Do"), v opačnom prípade Power Query túto tabuľku nerozpozná ako tabuľku transformácie a nedôjde k žiadnemu transformácii.
Pomocou predtým vytvoreného dotazu dvakrát kliknite na krok Skupinové hodnoty a potom v dialógovom okne Hodnoty klastra rozbaľte možnosti klastra Fuzzy. V časti Možnosti klastra Približné povoľte možnosť Zobraziť skóre podobnosti. V časti Tabuľka transformácie (voliteľné) vyberte dotaz obsahujúci tabuľku transformácie.
Po výbere tabuľky transformácie a povolení možnosti Zobraziť skóre podobnosti vyberte položku OK. Výsledkom tejto operácie je tabuľka, ktorá obsahuje rovnaké ID a stĺpce Osoba ako pôvodná tabuľka, ale obsahuje aj dva nové stĺpce s názvom Klaster a Person_Cluster_Similarity. Stĺpec Cluster obsahuje správne napísané a veľké písmená mien Miguel pre verzie Miguel a Mike, a William pre verzie Bill, Billy a William. Stĺpec Person_Cluster_Similarity obsahuje skóre podobnosti pre každý z názvov.
Možno si všimnete, že tabuľka transformácie v predchádzajúcej časti znázorňujúca, že inštancie mikrofónu sa zmenia na Miguel a inštancie Williama sa zmenia na Bill. Vo výslednej tabuľke sa však inštancie Billa a "billy" namiesto toho zmenili na Williama. V tabuľke transformácie je tabuľka transformácie namiesto priamej cesty "From to path" (Od k) symetrická počas klastrovania, čo znamená, že "mike" zodpovedá funkcii Miguel a naopak. Výsledok ekvivalentov uvedených v tabuľke transformácie závisí od nasledujúcich pravidiel:
- Ak existuje väčšina rovnakých hodnôt, tieto hodnoty majú prednosť pred neidentiálnymi hodnotami.
- Ak nie je väčšina hodnôt, hodnota, ktorá sa zobrazí ako prvá, má prednosť.
V pôvodnej tabuľke použitej v tomto článku napríklad verzie miguela ("miguel" aj Miguel) v stĺpci Osoba tvoria väčšinu inštancií mena Miguel a Mike. Okrem toho názov Miguel s počiatočnými viečkami tvorí väčšinu názvu Miguel. Ak tak priradíte funkciu Miguel a jej deriváty a Mike a jeho deriváty v tabuľke transformácie, výsledkom bude použitie názvu Miguel v stĺpci klastra .
Avšak, pre mená William, Bill, a "billy", nie je žiadna väčšina hodnôt, pretože všetky tri sú jedinečné. Keďže William sa objaví ako prvý, william sa používa v stĺpci Cluster . Ak sa v tabuľke ako prvý objavil "billy", v stĺpci Klastre by sa použilo "billy". A keďže v nej nie je väčšina hodnôt, použije sa prípad používaný jednotlivými názvami. To znamená, že ak william je prvý, william s veľkými písmenami "W" sa používa ako výsledná hodnota; ak "billy" je prvý, "billy" s malým písmenom "b" sa používa.