Sdílet prostřednictvím


Jak funguje porovnávání přibližných shod v Power Query

Funkce Power Query, jako je přibližné sloučení, hodnoty clusteru a přibližné seskupení , používají stejné mechanismy, aby fungovaly jako přibližné shody.

Tento článek se zabývá mnoha scénáři, které ukazují, jak využít možnosti, které přibližné shody mají, s cílem "přibližné" jasné.

Úprava prahové hodnoty podobnosti

Nejlepším scénářem pro použití algoritmu přibližné shody je situace, kdy všechny textové řetězce ve sloupci obsahují pouze řetězce, které je potřeba porovnat a žádné další komponenty. Například porovnání s Apples 4ppl3s výnosy vyšší skóre podobnosti než porovnání s Apples My favorite fruit, by far, is Apples. I simply love them!.

Protože slovo Apples ve druhém řetězci je pouze malá část celého textového řetězce, toto porovnání přináší nižší skóre podobnosti.

Například následující datová sada se skládá z odpovědí z průzkumu, který měl jenom jednu otázku – "Co je vaše oblíbené ovoce?"

Fruit
Borůvky
Modré plody jsou prostě nejlepší
Jahody
Jahody = <3
Jablka
Sples
4ppl3s
Bananas
fav ovoce je banány
Banas
Moje oblíbené ovoce je zdaleka jablka. Prostě je miluju!

Průzkum poskytl jedno textové pole pro zadání hodnoty a nemělo žádné ověření.

Teď máte za úkol seskupováním hodnot. Pokud chcete tuto úlohu provést, načtěte předchozí tabulku ovoce do Power Query, vyberte sloupec a pak vyberte možnost Hodnoty clusteru na kartě Přidat sloupec na pásu karet.

Snímek obrazovky s možností hodnoty clusteru na kartě Přidat sloupec na pásu karet, která je k dispozici po výběru sloupce Ovoce z tabulky

Zobrazí se dialogové okno Hodnoty clusteru, kde můžete zadat název nového sloupce. Pojmenujte tento nový sloupec Cluster a vyberte OK.

Snímek obrazovky s dialogovým oknem hodnot clusteru po výběru sloupce Fruit Nové pole názvu sloupce je nastavené na Cluster.

Power Query ve výchozím nastavení používá prahovou hodnotu podobnosti 0,8 (nebo 80 %). Minimální hodnota 0,00 způsobí, že všechny hodnoty s libovolnou úrovní podobnosti se shodují a maximální hodnota 1,00 umožňuje pouze přesné shody. Přibližná "přesná shoda" může ignorovat rozdíly, jako jsou velikost textu, pořadí slov a interpunkce. Výsledkem předchozí operace je následující tabulka s novým sloupcem Cluster.

Snímek obrazovky s výchozím výstupem s novým sloupcem Cluster po provedení operace hodnoty clusteru ve sloupci Fruit s výchozími hodnotami

Během vytváření clusteringu vám nedává očekávané výsledky pro všechny řádky. Číslo řádku dvě (2) má stále hodnotu Blue berries are simply the best, ale mělo by být seskupené s Blueberries, a něco podobného se stane s textovými řetězci Strawberries = <3, fav fruit is bananasa My favorite fruit, by far, is Apples. I simply love them!.

Chcete-li zjistit, co je příčinou tohoto clusteringu, poklikejte na clusterované hodnoty na panelu Použitý postup a vraťte zpět dialogové okno Hodnoty clusteru. V tomto dialogovém okně rozbalte možnosti clusteru Fuzzy. Povolte možnost Zobrazit skóre podobnosti a pak vyberte OK.

Snímek obrazovky s oknem hodnot clusteru se zobrazenými možnostmi přibližného clusteru a vybranou možností zobrazit skóre podobnosti

Povolení možnosti Zobrazit skóre podobnosti vytvoří v tabulce nový sloupec. Tento sloupec zobrazuje přesné skóre podobnosti mezi definovaným clusterem a původní hodnotou.

Snímek obrazovky tabulky s novým sloupcem skóre podobnosti s názvem Fruit_Cluster_Similarity

Při bližší kontrole Power Query nemohl najít žádné jiné hodnoty v prahové hodnotě podobnosti pro textové řetězce Blue berries are simply the best,Strawberries = <3fav fruit is bananas a My favorite fruit, by far, is Apples. I simply love them!.

Vraťte se do dialogového okna Hodnoty clusteru ještě jednou poklikáním na skupinové hodnoty na panelu Použitý postup. Změňte prahovou hodnotu podobnosti z 0,8 na 0,6 a pak vyberte OK.

Snímek obrazovky s dialogovým oknem hodnot clusteru se zobrazenými možnostmi přibližného clusteru a prahovou hodnotou podobnosti nastavenou na hodnotu 0.6

Tato změna vás přiblíží výsledku, který hledáte, s výjimkou textového řetězce My favorite fruit, by far, is Apples. I simply love them!. Když jste změnili prahovou hodnotu podobnosti z 0,8 na 0,6, Power Query teď dokázal použít hodnoty se skóre podobnosti, které začíná od 0,6 až do 1.

Snímek obrazovky tabulky po definování prahové hodnoty podobnosti na hodnotě 0,6 s novými hodnotami přiřazenými ve sloupci Cluster

Poznámka:

Power Query vždy k definování clusterů používá hodnotu, která je nejblíže prahové hodnotě. Prahová hodnota definuje dolní limit skóre podobnosti, které je přijatelné pro přiřazení hodnoty ke clusteru.

Zkuste to znovu tak, že změníte skóre podobnosti z 0,6 na nižší číslo, dokud nedostanete výsledky, které hledáte. V tomto případě změňte skóre podobnosti na 0,5. Tato změna přináší přesný výsledek, který očekáváte s textovým řetězcem My favorite fruit, by far, is Apples. I simply love them! , který je teď přiřazen ke clusteru Apples.

Snímek obrazovky tabulky se všemi správnými hodnotami ve sloupci Cluster

Poznámka:

V současné době poskytuje nový sloupec se skóre podobnosti pouze funkce hodnot clusteru v Power Query Online.

Zvláštní aspekty transformační tabulky

Transformační tabulka vám pomůže mapovat hodnoty ze sloupce na nové hodnoty před provedením algoritmu přibližných shod.

Příklady použití transformační tabulky:

Důležité

Při použití transformační tabulky je maximální skóre podobnosti hodnot z tabulky transformace 0,95. Tento záměrný trest 0,05 je zaveden k odlišení, že původní hodnota z tohoto sloupce se nerovná hodnotám, které byly porovnány s tím, jak došlo k transformaci.

Ve scénářích, ve kterých chcete nejprve namapovat hodnoty, a pak provést přibližné shody bez penalizace 0,05, doporučujeme nahradit hodnoty ze sloupce a pak provést přibližné shody.