Čítať v angličtine

Zdieľať cez


Približné zlúčenie

zlúčenie Fuzzy je inteligentná funkcia prípravy údajov, ktorú môžete použiť na použitie približne zhodných algoritmov pri porovnávaní stĺpcov. Tieto algoritmy sa snažia nájsť zhody v tabuľkách, ktoré sa zlučujú.

Približné zlučovanie v dolnej časti dialógového okna Zlúčiť môžete povoliť výberom tlačidla možnosti Použiť približné zhody na vykonanie tlačidla možnosti zlúčenia. Ďalšie informácie: prehľad operácií zlúčenia

Poznámka

Približná zhoda sa podporuje len pri operáciách zlúčenia textových stĺpcov. Power Query používa algoritmus podobnosti Jaccard na meranie podobnosti medzi pármi inštancií.

Ukážkový scenár

Bežným príkladom použitia pri približnej zhode je s voľnými textovými poľami, napríklad v prieskume. Pre tento článok bola vzorová tabuľka prevzatá priamo z online prieskumu odoslaného do skupiny s iba jednou otázkou: Aké sú vaše obľúbené ovocie?

Výsledky tohto prieskumu sú zobrazené na nasledujúcom obrázku.

Ukážkový prieskum so nespracovanými položkami.

Snímka obrazovky znázorňujúca výstupnú tabuľku ukážkového prieskumu obsahujúcu graf distribúcie stĺpcov zobrazujúci deväť jedinečných odpovedí so všetkými odpoveďami a odpoveďami na prieskum so všetkými preklepmi, množným číslom alebo v jednotnom čísle a problémami s prípadmi.

Deväť záznamov odráža odoslania prieskumu. Problém s prieskumom podania je, že niektoré majú preklepy, niektoré sú v množnom čísle, niektoré sú jednotné, niektoré sú veľké, a niektoré sú malé.

Na štandardizáciu týchto hodnôt v tomto príklade máte referenčnú tabuľku Ovocie.

Ovocie referenčná tabuľka.

Snímka obrazovky referenčnej tabuľky Ovocie obsahujúcej graf distribúcie stĺpcov zobrazujúca štyri rôzne druhy ovocia jedinečné a zoznam ovocia: jablko, ananás, watermelon a banány.

Poznámka

Pre jednoduchosť táto Ovocie referenčná tabuľka obsahuje iba názov ovocia, ktoré budú potrebné pre tento scenár. Referenčná tabuľka môže obsahovať toľko riadkov, koľko potrebujete.

Cieľom je vytvoriť napríklad tabuľku, v ktorej ste štandardizovali všetky tieto hodnoty, aby ste mohli vykonať ďalšiu analýzu.

Výstupná tabuľka vzorového prieskumu.

Snímka obrazovky výstupnej tabuľky ukážkového prieskumu so stĺpcom Otázka obsahujúcou graf distribúcie stĺpcov. Graf zobrazuje deväť jedinečných odpovedí so všetkými odpoveďami jedinečnými. Odpovede na prieskum obsahujú všetky preklepy, množné číslo alebo jednotné číslo, a prípad problémy. Výstupná tabuľka obsahuje aj stĺpec Fruit (Ovocie). Tento stĺpec obsahuje graf distribúcie stĺpcov zobrazujúci štyri odlišné odpovede s jednou jedinečnou odpoveďou. Je tiež uvádza všetky druhy ovocia správne hláskované, jednotného a správneho písmena.

Operácia na približné zlúčenie

Ak chcete vykonať približné zlúčenie, začnite zlúčením. V tomto prípade použijete vonkajšie spojenie, kde ľavá tabuľka je tá z prieskumu a pravá tabuľka je Ovocie referenčnej tabuľke. V dolnej časti dialógového okna vyberte začiarkavacie políčko Použiť približné zhody na vykonanie zlúčenia.

Snímka obrazovky dialógového okna Zlúčenie zobrazujúca, ako používať približné zhody na vykonanie možnosti zlúčenia.

Po výbere možnosti OKsa v tabuľke zobrazí nový stĺpec z dôvodu tejto operácie zlúčenia. Ak ju rozbalíte, je tu jeden riadok, ktorý neobsahuje žiadne hodnoty. To je presne to, čo dialógové okno správy na predchádzajúcom obrázku uviedol, keď povedal: "Výber zodpovedá 8 z 9 riadkov z prvej tabuľky."

výsledkom zhody na fuzzy je stĺpec Fruit (Ovocie).

Snímka obrazovky so stĺpcom fruit (ovocie) pridaným do tabuľky Survey (Prieskum). Všetky riadky v stĺpci Otázka sú rozbalené s výnimkou riadka 9, ktorý sa nepodarilo rozbaliť a stĺpec Fruit obsahuje hodnotu null.

Možnosti približnej zhody

Môžete upraviť možnosti Približné zhodné na vylepšenie spôsobu približnej zhody. Najprv vyberte príkaz Zlúčiť dotazy a potom v dialógovom okne Zlúčiť rozbaľte možnosti približnej zhody .

Snímka obrazovky dialógového okna Zlúčiť so zobrazenými približne rovnakými možnosťami.

Dostupné možnosti sú:

  • Prahová hodnota podobnosti (voliteľná): Hodnota medzi 0,00 a 1,00, ktorá poskytuje možnosť zhodovať záznamy nad daným skóre podobnosti. Prahová hodnota 1,00 je rovnaká ako zadanie kritéria presnej zhody. Napríklad hrozno sa zhoduje s Graes (chýba písmeno p) iba v prípade, že prah je nastavený na hodnotu menšiu ako 0,90. Predvolene je táto hodnota nastavená na 0,80.
  • ignorovaťpísmen : Umožňuje zhodné záznamy bez ohľadu na veľkosť písmen textu.
  • Zhoda kombinovaním častí textu: Umožňuje kombinovať textové časti, aby sa našli zhody. Napríklad micro soft sa bude zhodovať so microsoft, ak je táto možnosť povolená.
  • Zobraziť skóre podobnosti: po približnej zhode zobrazí skóre podobnosti medzi vstupom a zodpovedajúcimi hodnotami.
  • Počet zhôd (voliteľné): Určuje maximálny počet zhodných riadkov, ktoré možno vrátiť pre každý vstupný riadok.
  • Tabuľka transformácií (voliteľné): Umožňuje priradenie zodpovedajúcich záznamov na základe mapovania vlastných hodnôt. Napríklad reťazec Hrozno sa bude zhodovať s hrozienkami ak je zadaná tabuľka transformácie, v ktorej stĺpec From (Od) obsahuje Hrozno a stĺpec Do obsahuje hrozienka.

Tabuľka transformácie

V príklade v tomto článku môžete použiť tabuľku transformácie na mapovanie hodnoty, ktorá chýba. Táto hodnota je apls , ktoré je potrebné namapovať na Apple. Tabuľka transformácie má dva stĺpce:

  • z obsahuje hodnoty, ktoré sa majú vyhľadať.
  • Do obsahuje hodnoty, ktoré sa používajú na nahradenie hodnôt nájdených pomocou stĺpca Od.

V tomto článku bude tabuľka transformácie vyzerať takto:

Z Do
apls (apls) Jablko

Môžete sa vrátiť do dialógového okna zlúčiť a v možnosti približnej zhody v časti Počet zhôdzadajte 1. Povoľte možnosť zobraziť skóre podobnosti a potom v časti Tabuľka transformácie vyberte v rozbaľovacej ponuke položku Transformovať tabuľku.

Snímka obrazovky dialógového okna Zlúčenie s počtom zhôd nastaveným na 1 a tabuľka transformácie nastavenou na možnosť Transformovať tabuľku.

Po výbere možnosti OKmôžete prejsť na krok zlúčenia. Keď rozbalíte stĺpec s hodnotami tabuľky, okrem poľa Fruit sa vám tiež zobrazí pole skóre podobnosti. Vyberte ich a rozbaľte ich bez pridania predpony.

Snímka obrazovky dialógového okna rozbalenia tabuľky pre stĺpec Ovocie, ktorý obsahuje vybraté polia Skóre ovocia a podobnosti.

Po rozbalení týchto dvoch polí sa tieto dve polia pridajú do vašej tabuľky. Všimnite si hodnoty, ktoré získate pre skóre podobnosti každej hodnoty. Tieto skóre vám v prípade potreby môžu pomôcť s ďalšími transformáciami, aby ste mohli určiť, či máte znížiť alebo zvýšiť prah podobnosti.

Snímka obrazovky výstupu tabuľky po približnej zlučovaní zobrazujúca nové polia skóre ovocia a podobnosti pre každú hodnotu.

V tomto príklade skóre podobnosti slúži len ako ďalšie informácie a nie je potrebné vo výstupe tohto dotazu, aby ste ho mohli odstrániť. Všimnite si, ako sa v príklade začalo s deviatimi odlišnými hodnotami, ale po približnej zlúčenie sú k dispozícii len štyri odlišné hodnoty.

tabuľke výstupu prieskumu Fuzzy zlúčiť.

Snímka obrazovky znázorňujúca výstupnú tabuľku prieskumu približnej zlúčenia so stĺpcom Otázka obsahujúcou graf distribúcie stĺpcov zobrazujúcimi deväť jedinečných odpovedí so všetkými odpoveďami a odpoveďami na prieskum so všetkými preklepmi, množným alebo jednotném číslom a problémami s prípadmi. Taktiež obsahuje stĺpec Fruit (ovocie) s grafom distribúcie stĺpcov zobrazujúci štyri odlišné odpovede s jednou jedinečnou odpoveďou a zoznam všetkých plodov správne hláskovaných, jedinečných a správnych písmen.

Ďalšie informácie o fungovaní tabuliek transformácie nájdete v téme predjatia tabuľky transformácií.