Ako približná zhoda funguje v Power Query
Funkcie Power Query, ako napríklad približné zlúčenie, hodnoty klastrov a približné zoskupenie , používajú rovnaké mechanizmy na to, aby fungovali ako približná zhoda.
Tento článok prechádza mnohými scenármi, ktoré ukazujú, ako využiť možnosti, ktoré približná zhoda má, s cieľom urobiť 'približné' jasné.
Najlepším scenárom použitia algoritmu približnej zhody je, že všetky textové reťazce v stĺpci obsahujú iba reťazce, ktoré je potrebné porovnať, a žiadne ďalšie súčasti. Porovnanie s 4ppl3s
výnosmi má Apples
napríklad vyššie skóre podobnosti ako porovnanie Apples
My favorite fruit, by far, is Apples. I simply love them!
s .
Keďže slovo Apples
v druhom reťazci je len malou časťou celého textového reťazca, toto porovnanie prináša nižšie skóre podobnosti.
Nasledujúca množina údajov napríklad pozostáva z odpovedí z prieskumu, ktorý mal iba jednu otázku: "Aké je vaše obľúbené ovocie?"
Ovocie |
---|
Čučoriedky |
Modré bobule sú jednoducho najlepšie |
Jahody |
Jahody = <3 |
Jablká |
'sples' |
4ppl3s |
Banány |
fav ovocie sú banány |
Banas |
Moje obľúbené ovocie, zďaleka, je Apples. Jednoducho ich milujem! |
Prieskum poskytol jedno textové pole na zadanie hodnoty a nemal žiadne overenie.
Teraz máte za úlohu klastrovať hodnoty. Ak chcete vykonať túto úlohu, načítajte predchádzajúcu tabuľku ovocia do Power Query, vyberte stĺpec a potom vyberte možnosť Hodnoty klastra na karte Pridať stĺpec na páse s nástrojmi.
Zobrazí sa dialógové okno Hodnoty klastra, kde môžete zadať názov nového stĺpca. Pomenujte tento nový stĺpec Klaster a vyberte tlačidlo OK.
Power Query predvolene používa prah podobnosti 0,8 (alebo 80 %). Minimálna hodnota 0,00 spôsobí, že všetky hodnoty s akoukoľvek úrovňou podobnosti sa navzájom zhodujú a maximálna hodnota 1,00 povoľuje iba presné zhody. Približne presná zhoda môže ignorovať rozdiely, ako je napríklad puzdro, poradie slov a interpunkcia. Výsledok predchádzajúcej operácie prináša nasledujúcu tabuľku s novým stĺpcom klastra .
Zatiaľ čo klastrovanie sa vykonáva, neposkytne vám očakávané výsledky pre všetky riadky. Riadok číslo dva (2) má stále hodnotu Blue berries are simply the best
, ale mala by byť zoskupená do Blueberries
, a niečo podobné sa stane textovými reťazcami Strawberries = <3
, fav fruit is bananas
a My favorite fruit, by far, is Apples. I simply love them!
.
Ak chcete zistiť, čo spôsobuje toto klastrovanie, dvakrát kliknite na položku Skupinové hodnoty na paneli Použité kroky , čím sa vráti dialógové okno Hodnoty klastra. V tomto dialógovom okne rozbaľte možnosti klastra Fuzzy. Povoľte možnosť Zobraziť skóre podobnosti a potom vyberte položku OK.
Povolením možnosti Zobraziť skóre podobnosti sa vytvorí nový stĺpec v tabuľke. V tomto stĺpci sa zobrazuje presné skóre podobnosti medzi definovaným klastrom a pôvodnou hodnotou.
Po bližšom dozore sa v doplnku Power Query nepodarilo nájsť žiadne iné hodnoty v prahovej hodnote podobnosti pre textové reťazce Blue berries are simply the best
,Strawberries = <3
, fav fruit is bananas
a My favorite fruit, by far, is Apples. I simply love them!
.
Ak sa chcete znova vrátiť do dialógového okna Hodnoty klastra, dvakrát kliknite na položku Skupinové hodnoty na paneli Použité kroky . Zmeňte prahovú hodnotu podobnosti z 0,8 na 0,6 a potom vyberte položku OK.
Táto zmena sa dostanete bližšie k výsledku, ktorý hľadáte, okrem textového reťazca My favorite fruit, by far, is Apples. I simply love them!
. Keď ste zmenili prahovú hodnotu podobnosti z 0,8 na 0,6, doplnok Power Query bol teraz schopný používať hodnoty s skóre podobnosti, ktoré začínalo od 0,6 až po 1.
Poznámka
Power Query vždy používa hodnotu, ktorá je najbližšie k prahovej hodnote, na definovanie klastrov. Prahová hodnota definuje nižší limit skóre podobnosti, ktoré je prijateľné na priradenie hodnoty klastru.
Môžete to skúsiť znova tak, že zmeníte skóre podobnosti z 0,6 na nižšie číslo, kým nenájdete výsledky, ktoré hľadáte. V tomto prípade zmeňte skóre podobnosti na hodnotu 0,5. Táto zmena vráti presný výsledok, ktorý očakávate, keď je textový reťazec My favorite fruit, by far, is Apples. I simply love them!
teraz priradený ku klastru Apples
.
Poznámka
V súčasnosti poskytuje v službe Power Query Online len funkcia Hodnoty klastra nový stĺpec s skóre podobnosti.
Tabuľka transformácie pomáha mapovať hodnoty zo stĺpca na nové hodnoty pred vykonaním približného zhodného algoritmu.
Niekoľko príkladov použitia tabuľky transformácie:
- Tabuľka transformácie v hodnotách klastra
- Tabuľka transformácie v približných zlučovaní dotazov
- Tabuľka transformácie v zoskupenom podľa
Dôležité
Pri použití tabuľky transformácie je maximálne skóre podobnosti pre hodnoty z tabuľky transformácie 0,95. Tento zámerný trest 0,05 platí na rozlíšenie, že pôvodná hodnota z takéhoto stĺpca sa nerovná hodnotám, ktoré sa porovnali s hodnotami od doby, keď došlo k transformácii.
Pre scenáre, v ktorých chcete najskôr mapovať hodnoty a potom vykonať približné zhody bez pokuty 0,05, odporúčame, aby ste nahradili hodnoty zo stĺpca a potom vykonali približné zhody.