Hodnoty clusteru
Hodnoty clusteru automaticky vytvářejí skupiny s podobnými hodnotami pomocí přibližného odpovídajícího algoritmu a pak namapují hodnotu každého sloupce na skupinu, která je nejvhodnější. Tato transformace je užitečná, když pracujete s daty, která mají mnoho různých variací stejné hodnoty a potřebujete kombinovat hodnoty do konzistentních skupin.
Představte si ukázkovou tabulku se sloupcem ID , který obsahuje sadu ID a sloupec Person obsahující sadu různých napsaných a velkých písmen jmen Miguel, Mike, William a Bill.
V tomto příkladu je výsledek, který hledáte, tabulka s novým sloupcem, který zobrazuje správné skupiny hodnot ze sloupce Osoba , a ne všechny různé varianty stejných slov.
Poznámka
Funkce hodnot clusteru je dostupná jenom pro Power Query Online.
Pokud chcete hodnoty clusteru, nejprve vyberte sloupec Osoba, přejděte na kartu Přidat sloupec na pásu karet a pak vyberte možnost Hodnoty clusteru.
V dialogovém okně Hodnoty clusteru potvrďte sloupec, ze kterého chcete clustery vytvořit, a zadejte nový název sloupce. V tomto případě pojmenujte tento nový sloupec Cluster.
Výsledek této operace je znázorněn na následujícím obrázku.
Poznámka
U každého clusteru hodnot Vybere Power Query z vybraného sloupce nejčastější instanci jako kanonický. Pokud se s stejnou frekvencí vyskytuje více instancí, Power Query vybere první z nich.
Pro hodnoty clusteringu v novém sloupci jsou k dispozici následující možnosti:
- Prahová hodnota podobnosti (volitelná):: Tato možnost označuje, jak podobné dvě hodnoty musí být seskupené dohromady. Minimální nastavení nuly (0) způsobí seskupení všech hodnot. Maximální nastavení 1 umožňuje seskupit pouze hodnoty, které přesně odpovídají. Výchozí hodnota je 0,8.
- Ignorovat malá a velká písmena: Při porovnávání textových řetězců se velká a malá písmena ignorují. Tato možnost je ve výchozím nastavení povolená.
- Seskupit pomocí kombinování textových částí: Algoritmus se pokusí zkombinovat textové části (například zkombinovat Mikro a soft do Microsoftu) a seskupit hodnoty.
- Zobrazit skóre podobnosti: Zobrazuje skóre podobnosti mezi vstupními hodnotami a vypočítané reprezentativní hodnoty po přibližné shlukování.
- Transformační tabulka (volitelné): Můžete vybrat transformační tabulku, která mapuje hodnoty (například mapování MSFT na Microsoft), aby je seskupila dohromady.
V tomto příkladu slouží nová transformační tabulka s názvem Moje transformační tabulka k předvedení způsobu mapování hodnot. Tato transformační tabulka má dva sloupce:
- From: Textový řetězec, který chcete vyhledat v tabulce.
- To: Textový řetězec, který se má použít k nahrazení textového řetězce ve sloupci Od .
Důležité
Je důležité, aby tabulka transformace měla stejné sloupce a názvy sloupců, jak je znázorněno na předchozím obrázku (musí mít název Od a Komu), jinak Power Query tuto tabulku nerozpozná jako transformační tabulku a neprobíhá žádná transformace.
Pomocí dříve vytvořeného dotazu poklikejte na krok Clusterované hodnoty a potom v dialogovém okně Hodnoty clusteru rozbalte možnosti clusteru Fuzzy. V části Možnosti clusteru Fuzzy povolte možnost Zobrazit skóre podobnosti. V případě transformační tabulky (volitelné) vyberte dotaz s transformační tabulkou.
Po výběru transformační tabulky a povolení možnosti Zobrazit skóre podobnosti vyberte OK. Výsledkem této operace je tabulka, která obsahuje stejné ID a sloupce Person jako původní tabulka, ale obsahuje také dva nové sloupce s názvem Cluster a Person_Cluster_Similarity. Sloupec Cluster obsahuje správně napsané a velké verze názvů Miguel pro verze Miguel a Mikea a Williama pro verze Bill, Billy a William. Sloupec Person_Cluster_Similarity obsahuje skóre podobnosti pro každý z názvů.
Možná si všimnete, že transformační tabulka v předchozí části značí, že instance Mikea se změní na Miguel a instance Williama se změní na Bill. Ve výsledné tabulce se ale instance Billa a "billy" změnily na Williama. V transformační tabulce je místo přímé cesty Od do To tabulka transformace symetrická během clusteringu, což znamená, že "mike" je ekvivalentem "Miguel" a naopak. Výsledek ekvivalentů zadaných v tabulce transformace závisí na následujících pravidlech:
- Pokud existuje většina identických hodnot, mají tyto hodnoty přednost před neidentickými hodnotami.
- Pokud žádná většina hodnot neexistuje, má tato hodnota přednost.
Například v původní tabulce použité v tomto článku tvoří verze Miguel (miguel i Miguel) ve sloupci Person většinu výskytů jména Miguel a Mikea. Kromě toho název Miguel s počátečními caps tvoří většinu názvu Miguel. Takže přidružení Miguela a jeho derivátů a Mike a jeho derivátů v transformační tabulce má za následek název Miguel použitý ve sloupci Cluster .
Pro jména William, Bill a "billy" ale neexistuje většina hodnot, protože všechny tři jsou jedinečné. Protože se William zobrazuje jako první, William se používá ve sloupci Cluster . Pokud se "faktura" objevila jako první v tabulce, použije se ve sloupci Cluster "billy". Vzhledem k tomu, že neexistuje většina hodnot, používá se velká a malá písmena jednotlivých názvů. To znamená, že pokud je William první, William s velkým písmenem "W" se použije jako výsledná hodnota; Pokud je "billy" první, použije se "billy" s menším písmenem "b".