Sdílet prostřednictvím


Hodnoty clusteru

Hodnoty clusteru automaticky vytvářejí skupiny s podobnými hodnotami pomocí přibližného odpovídajícího algoritmu a pak namapují hodnotu každého sloupce na skupinu, která je nejvhodnější. Tato transformace je užitečná, když pracujete s daty, která mají mnoho různých variací stejné hodnoty a potřebujete kombinovat hodnoty do konzistentních skupin.

Představte si ukázkovou tabulku se sloupcem ID , který obsahuje sadu ID a sloupec Person obsahující sadu různých napsaných a velkých písmen jmen Miguel, Mike, William a Bill.

Snímek obrazovky tabulky s devíti řádky položek, které obsahují různá pravopisná a velká písmena jména Miguel a William

V tomto příkladu je výsledek, který hledáte, tabulka s novým sloupcem, který zobrazuje správné skupiny hodnot ze sloupce Osoba , a ne všechny různé varianty stejných slov.

Snímek obrazovky s clusterovanými hodnotami jako novým sloupcem s názvem Cluster v počáteční tabulce

Poznámka:

Funkce hodnot clusteru je dostupná jenom pro Power Query Online.

Vytvoření sloupce clusteru

Pokud chcete hodnoty clusteru, nejprve vyberte sloupec Osoba, přejděte na kartu Přidat sloupec na pásu karet a pak vyberte možnost Hodnoty clusteru.

Snímek obrazovky s ikonou hodnot clusteru na kartě Přidat sloupec na pásu karet Online Power Query

V dialogovém okně Hodnoty clusteru potvrďte sloupec, ze kterého chcete clustery vytvořit, a zadejte nový název sloupce. V tomto případě pojmenujte tento nový sloupec Cluster.

Snímek obrazovky s oknem hodnot clusteru s vybraným sloupcem Osoba a novým sloupcem s názvem Cluster

Výsledek této operace je znázorněn na následujícím obrázku.

Snímek obrazovky s clusterovanými hodnotami jako novým sloupcem s názvem Cluster v počáteční tabulce

Poznámka:

U každého clusteru hodnot Vybere Power Query z vybraného sloupce nejčastější instanci jako kanonický. Pokud se s stejnou frekvencí vyskytuje více instancí, Power Query vybere první z nich.

Použití možností přibližného clusteru

Pro hodnoty clusteringu v novém sloupci jsou k dispozici následující možnosti:

  • Prahová hodnota podobnosti (volitelná):: Tato možnost označuje, jak podobné dvě hodnoty musí být seskupené dohromady. Minimální nastavení nuly (0) způsobí seskupení všech hodnot. Maximální nastavení 1 umožňuje seskupit pouze hodnoty, které přesně odpovídají. Výchozí hodnota je 0,8.
  • Ignorovat malá a velká písmena: Při porovnávání textových řetězců se velká a malá písmena ignorují. Tato možnost je ve výchozím nastavení povolená.
  • Seskupit pomocí kombinování textových částí: Algoritmus se pokusí zkombinovat textové části (například zkombinovat Mikro a soft do Microsoftu) a seskupit hodnoty.
  • Zobrazit skóre podobnosti: Zobrazuje skóre podobnosti mezi vstupními hodnotami a vypočítané reprezentativní hodnoty po přibližné shlukování.
  • Transformační tabulka (volitelné): Můžete vybrat transformační tabulku, která mapuje hodnoty (například mapování MSFT na Microsoft), aby je seskupila dohromady.

V tomto příkladu slouží nová transformační tabulka s názvem Moje transformační tabulka k předvedení způsobu mapování hodnot. Tato transformační tabulka má dva sloupce:

  • From: Textový řetězec, který chcete vyhledat v tabulce.
  • To: Textový řetězec, který se má použít k nahrazení textového řetězce ve sloupci Od .

Snímek obrazovky tabulky s hodnotami Mikea a Williama a Hodnoty Miguel a Billa

Důležité

Je důležité, aby tabulka transformace měla stejné sloupce a názvy sloupců, jak je znázorněno na předchozím obrázku (musí mít název Od a Komu), jinak Power Query tuto tabulku nerozpozná jako transformační tabulku a neprobíhá žádná transformace.

Pomocí dříve vytvořeného dotazu poklikejte na krok Clusterované hodnoty a potom v dialogovém okně Hodnoty clusteru rozbalte možnosti clusteru Fuzzy. V části Možnosti clusteru Fuzzy povolte možnost Zobrazit skóre podobnosti. V případě transformační tabulky (volitelné) vyberte dotaz s transformační tabulkou.

Snímek obrazovky s možnostmi přibližného clusteru s rozevírací nabídkou transformační tabulky nastavenou na ukázkovou transformační tabulku

Po výběru transformační tabulky a povolení možnosti Zobrazit skóre podobnosti vyberte OK. Výsledkem této operace je tabulka, která obsahuje stejné ID a sloupce Person jako původní tabulka, ale obsahuje také dva nové sloupce s názvem Cluster a Person_Cluster_Similarity. Sloupec Cluster obsahuje správně napsané a velké verze názvů Miguel pro verze Miguel a Mikea a Williama pro verze Bill, Billy a William. Sloupec Person_Cluster_Similarity obsahuje skóre podobnosti pro každý z názvů.

Snímek obrazovky tabulky obsahující nový cluster a Person_Cluster_Similarity sloupců

Precepty transformační tabulky

Možná si všimnete, že transformační tabulka v předchozí části značí, že instance Mikea se změní na Miguel a instance Williama se změní na Bill. Ve výsledné tabulce se ale instance Billa a "billy" změnily na Williama. V transformační tabulce je místo přímé cesty Od do To tabulka transformace symetrická během clusteringu, což znamená, že "mike" je ekvivalentem "Miguel" a naopak. Výsledek ekvivalentů zadaných v tabulce transformace závisí na následujících pravidlech:

  • Pokud existuje většina identických hodnot, mají tyto hodnoty přednost před neidentickými hodnotami.
  • Pokud žádná většina hodnot neexistuje, má tato hodnota přednost.

Například v původní tabulce použité v tomto článku tvoří verze Miguel (miguel i Miguel) ve sloupci Person většinu výskytů jména Miguel a Mikea. Kromě toho název Miguel s počátečními caps tvoří většinu názvu Miguel. Takže přidružení Miguela a jeho derivátů a Mike a jeho derivátů v transformační tabulce má za následek název Miguel použitý ve sloupci Cluster .

Pro jména William, Bill a "billy" ale neexistuje většina hodnot, protože všechny tři jsou jedinečné. Protože se William zobrazuje jako první, William se používá ve sloupci Cluster . Pokud se "faktura" objevila jako první v tabulce, použije se ve sloupci Cluster "billy". Vzhledem k tomu, že neexistuje většina hodnot, používá se velká a malá písmena jednotlivých názvů. To znamená, že pokud je William první, William s velkým písmenem "W" se použije jako výsledná hodnota; Pokud je "billy" první, použije se "billy" s menším písmenem "b".