Jak funguje porovnávání přibližných shod v Power Query
Funkce Power Query, jako je přibližné sloučení, hodnoty clusteru a přibližné seskupení , používají stejné mechanismy, aby fungovaly jako přibližné shody.
Tento článek se zabývá mnoha scénáři, které ukazují, jak využít možnosti, které přibližné shody mají, s cílem "přibližné" jasné.
Úprava prahové hodnoty podobnosti
Nejlepším scénářem pro použití algoritmu přibližné shody je situace, kdy všechny textové řetězce ve sloupci obsahují pouze řetězce, které je potřeba porovnat a žádné další komponenty. Například porovnání s Apples
4ppl3s
výnosy vyšší skóre podobnosti než porovnání s Apples
My favorite fruit, by far, is Apples. I simply love them!
.
Protože slovo Apples
ve druhém řetězci je pouze malá část celého textového řetězce, toto porovnání přináší nižší skóre podobnosti.
Například následující datová sada se skládá z odpovědí z průzkumu, který měl jenom jednu otázku – "Co je vaše oblíbené ovoce?"
Fruit |
---|
Borůvky |
Modré plody jsou prostě nejlepší |
Jahody |
Jahody = <3 |
Jablka |
Sples |
4ppl3s |
Bananas |
fav ovoce je banány |
Banas |
Moje oblíbené ovoce je zdaleka jablka. Prostě je miluju! |
Průzkum poskytl jedno textové pole pro zadání hodnoty a nemělo žádné ověření.
Teď máte za úkol seskupováním hodnot. Pokud chcete tuto úlohu provést, načtěte předchozí tabulku ovoce do Power Query, vyberte sloupec a pak vyberte možnost Hodnoty clusteru na kartě Přidat sloupec na pásu karet.
Zobrazí se dialogové okno Hodnoty clusteru, kde můžete zadat název nového sloupce. Pojmenujte tento nový sloupec Cluster a vyberte OK.
Power Query ve výchozím nastavení používá prahovou hodnotu podobnosti 0,8 (nebo 80 %). Minimální hodnota 0,00 způsobí, že všechny hodnoty s libovolnou úrovní podobnosti se shodují a maximální hodnota 1,00 umožňuje pouze přesné shody. Přibližná "přesná shoda" může ignorovat rozdíly, jako jsou velikost textu, pořadí slov a interpunkce. Výsledkem předchozí operace je následující tabulka s novým sloupcem Cluster.
Během vytváření clusteringu vám nedává očekávané výsledky pro všechny řádky. Číslo řádku dvě (2) má stále hodnotu Blue berries are simply the best
, ale mělo by být seskupené s Blueberries
, a něco podobného se stane s textovými řetězci Strawberries = <3
, fav fruit is bananas
a My favorite fruit, by far, is Apples. I simply love them!
.
Chcete-li zjistit, co je příčinou tohoto clusteringu, poklikejte na clusterované hodnoty na panelu Použitý postup a vraťte zpět dialogové okno Hodnoty clusteru. V tomto dialogovém okně rozbalte možnosti clusteru Fuzzy. Povolte možnost Zobrazit skóre podobnosti a pak vyberte OK.
Povolení možnosti Zobrazit skóre podobnosti vytvoří v tabulce nový sloupec. Tento sloupec zobrazuje přesné skóre podobnosti mezi definovaným clusterem a původní hodnotou.
Při bližší kontrole Power Query nemohl najít žádné jiné hodnoty v prahové hodnotě podobnosti pro textové řetězce Blue berries are simply the best
,Strawberries = <3
fav fruit is bananas
a My favorite fruit, by far, is Apples. I simply love them!
.
Vraťte se do dialogového okna Hodnoty clusteru ještě jednou poklikáním na skupinové hodnoty na panelu Použitý postup. Změňte prahovou hodnotu podobnosti z 0,8 na 0,6 a pak vyberte OK.
Tato změna vás přiblíží výsledku, který hledáte, s výjimkou textového řetězce My favorite fruit, by far, is Apples. I simply love them!
. Když jste změnili prahovou hodnotu podobnosti z 0,8 na 0,6, Power Query teď dokázal použít hodnoty se skóre podobnosti, které začíná od 0,6 až do 1.
Poznámka:
Power Query vždy k definování clusterů používá hodnotu, která je nejblíže prahové hodnotě. Prahová hodnota definuje dolní limit skóre podobnosti, které je přijatelné pro přiřazení hodnoty ke clusteru.
Zkuste to znovu tak, že změníte skóre podobnosti z 0,6 na nižší číslo, dokud nedostanete výsledky, které hledáte. V tomto případě změňte skóre podobnosti na 0,5. Tato změna přináší přesný výsledek, který očekáváte s textovým řetězcem My favorite fruit, by far, is Apples. I simply love them!
, který je teď přiřazen ke clusteru Apples
.
Poznámka:
V současné době poskytuje nový sloupec se skóre podobnosti pouze funkce hodnot clusteru v Power Query Online.
Zvláštní aspekty transformační tabulky
Transformační tabulka vám pomůže mapovat hodnoty ze sloupce na nové hodnoty před provedením algoritmu přibližných shod.
Příklady použití transformační tabulky:
- Transformační tabulka v hodnotách clusteru
- Transformační tabulka v přibližných dotazech sloučení
- Tabulka transformací ve skupině podle
Důležité
Při použití transformační tabulky je maximální skóre podobnosti hodnot z tabulky transformace 0,95. Tento záměrný trest 0,05 je zaveden k odlišení, že původní hodnota z tohoto sloupce se nerovná hodnotám, které byly porovnány s tím, jak došlo k transformaci.
Ve scénářích, ve kterých chcete nejprve namapovat hodnoty, a pak provést přibližné shody bez penalizace 0,05, doporučujeme nahradit hodnoty ze sloupce a pak provést přibližné shody.