Čítať v angličtine

Zdieľať cez


Hodnoty klastra

Hodnoty klastra automaticky vytvárajú skupiny s podobnými hodnotami pomocou približnej zhodného algoritmu a potom priraďujú hodnoty každého stĺpca k najlepšie zladenej skupine. Táto transformácia je užitočná vtedy, keď pracujete s údajmi s mnohými rôznymi variáciami rovnakej hodnoty a potrebujete hodnoty skombinovať do konzistentných skupín.

Predstavte si ukážkovú tabuľku so stĺpcom id , ktorý obsahuje množinu id a stĺpec Person (Osoba ) obsahujúci množinu rozličných hláskovaných a veľkých písmen mien Miguel, Mike, William a Bill.

Snímka obrazovky tabuľky s deviatimi riadkami položiek, ktoré obsahujú rôzne pravopisy a veľké písmená mena Miguel a William.

Výsledok, ktorý v tomto príklade hľadáte, je tabuľka s novým stĺpcom zobrazujúca správne skupiny hodnôt zo stĺpca Osoba a nie všetky odlišné variácie rovnakých slov.

Snímka obrazovky skupinových hodnôt ako nového stĺpca s názvom Klaster v počiatočnej tabuľke.

Poznámka

Funkcia Hodnoty klastra je k dispozícii len pre Power Query Online.

Vytvorenie stĺpca klastra

Ak chcete hodnoty klastra, najprv vyberte stĺpec Osoba , na páse s nástrojmi prejdite na kartu Pridať stĺpec a potom vyberte možnosť Hodnoty klastra.

Snímka obrazovky ikony hodnôt klastra na karte Pridať stĺpec na páse s nástrojmi služby Power Query Online.

V dialógovom okne Hodnoty klastra potvrďte stĺpec, z ktorému chcete vytvoriť klastre, a zadajte nový názov stĺpca. V tomto prípade pomenujte tento nový stĺpec Cluster.

Snímka obrazovky znázorňujúca okno hodnôt klastra s vybratým stĺpcom Osoba a stĺpcom Nový s názvom klastr.

Výsledok tejto operácie je zobrazený na nasledujúcom obrázku.

Snímka obrazovky skupinových hodnôt ako nového stĺpca s názvom Klaster v počiatočnej tabuľke.

Poznámka

Pre každý klaster hodnôt vyberie Power Query najčastejšie inštanciu z vybratého stĺpca ako "kanonickú" inštanciu. Ak sa vyskytujú viaceré inštancie s rovnakou frekvenciou, Power Query vyberie prvú inštanciu.

Použitie možností približného klastra

Pre hodnoty klastrovania v novom stĺpci sú k dispozícii nasledujúce možnosti:

  • Prahová hodnota podobnosti (voliteľné): Táto možnosť označuje, ako musia byť podobné dve hodnoty zoskupené. Minimálnym nastavením nuly (0) sa zoskupia všetky hodnoty. Maximálne nastavenie 1 umožňuje zoskupiť hodnoty, ktoré sa presne zhodujú. Predvolená hodnota je 0,8.
  • Ignorovať malé a veľké písmená: Pri porovnávaní textových reťazcov sa veľké a malé písmená ignorujú. Táto možnosť je predvolene zapnutá.
  • Zoskupenie skombinovaním častí textu: Algoritmus sa snaží skombinovať textové časti (ako napríklad kombináciu mikro a mäkkej do spoločnosti Microsoft) a zoskupiť hodnoty.
  • Zobraziť skóre podobnosti: zobrazí skóre podobnosti medzi vstupnými hodnotami a vypočítavaným reprezentatívnymi hodnotami po približnom klastrovaní.
  • Tabuľka transformácie (voliteľné): Môžete vybrať tabuľku transformácie, ktorá mapuje hodnoty (napríklad mapovanie MSFT do spoločnosti Microsoft) a zoskupí ich.

V tomto príklade sa na znázornenie spôsobu mapovania hodnôt použije nová tabuľka transformácie s názvom Moja tabuľka transformácie. Táto tabuľka transformácie má dva stĺpce:

  • Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
  • Ak chcete: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od .

Snímka obrazovky tabuľky zobrazujúca hodnoty mikrofónu a Williama a Do hodnôt Miguela a Billa.

Dôležité

Je dôležité, aby mala tabuľka transformácií rovnaké názvy stĺpcov a stĺpcov ako na predchádzajúcom obrázku (musia mať názov "Od" a "Do"), v opačnom prípade Power Query túto tabuľku nerozpozná ako tabuľku transformácie a nedôjde k žiadnemu transformácii.

Pomocou predtým vytvoreného dotazu dvakrát kliknite na krok Skupinové hodnoty a potom v dialógovom okne Hodnoty klastra rozbaľte možnosti klastra Fuzzy. V časti Možnosti klastra Približné povoľte možnosť Zobraziť skóre podobnosti. V časti Tabuľka transformácie (voliteľné) vyberte dotaz obsahujúci tabuľku transformácie.

Snímka obrazovky s približnými možnosťami klastra s rozbaľovacou ponukou tabuľky transformácie nastavenou na tabuľku ukážkovej transformácie.

Po výbere tabuľky transformácie a povolení možnosti Zobraziť skóre podobnosti vyberte položku OK. Výsledkom tejto operácie je tabuľka, ktorá obsahuje rovnaké ID a stĺpce Osoba ako pôvodná tabuľka, ale obsahuje aj dva nové stĺpce s názvom Klaster a Person_Cluster_Similarity. Stĺpec Cluster obsahuje správne napísané a veľké písmená mien Miguel pre verzie Miguel a Mike, a William pre verzie Bill, Billy a William. Stĺpec Person_Cluster_Similarity obsahuje skóre podobnosti pre každý z názvov.

Snímka obrazovky tabuľky obsahujúcej nový klaster a Person_Cluster_Similarity stĺpce.

Predbežné upozornenia tabuľky transformácie

Možno si všimnete, že tabuľka transformácie v predchádzajúcej časti znázorňujúca, že inštancie mikrofónu sa zmenia na Miguel a inštancie Williama sa zmenia na Bill. Vo výslednej tabuľke sa však inštancie Billa a "billy" namiesto toho zmenili na Williama. V tabuľke transformácie je tabuľka transformácie namiesto priamej cesty "From to path" (Od k) symetrická počas klastrovania, čo znamená, že "mike" zodpovedá funkcii Miguel a naopak. Výsledok ekvivalentov uvedených v tabuľke transformácie závisí od nasledujúcich pravidiel:

  • Ak existuje väčšina rovnakých hodnôt, tieto hodnoty majú prednosť pred neidentiálnymi hodnotami.
  • Ak nie je väčšina hodnôt, hodnota, ktorá sa zobrazí ako prvá, má prednosť.

V pôvodnej tabuľke použitej v tomto článku napríklad verzie miguela ("miguel" aj Miguel) v stĺpci Osoba tvoria väčšinu inštancií mena Miguel a Mike. Okrem toho názov Miguel s počiatočnými viečkami tvorí väčšinu názvu Miguel. Ak tak priradíte funkciu Miguel a jej deriváty a Mike a jeho deriváty v tabuľke transformácie, výsledkom bude použitie názvu Miguel v stĺpci klastra .

Avšak, pre mená William, Bill, a "billy", nie je žiadna väčšina hodnôt, pretože všetky tri sú jedinečné. Keďže William sa objaví ako prvý, william sa používa v stĺpci Cluster . Ak sa v tabuľke ako prvý objavil "billy", v stĺpci Klastre by sa použilo "billy". A keďže v nej nie je väčšina hodnôt, použije sa prípad používaný jednotlivými názvami. To znamená, že ak william je prvý, william s veľkými písmenami "W" sa používa ako výsledná hodnota; ak "billy" je prvý, "billy" s malým písmenom "b" sa používa.