Hodnoty clusteru
Hodnoty clusteru automaticky vytvářejí skupiny s podobnými hodnotami pomocí přibližného odpovídajícího algoritmu a pak namapují hodnotu každého sloupce na skupinu, která je nejvhodnější. Tato transformace je užitečná, když pracujete s daty, která mají mnoho různých variací stejné hodnoty a potřebujete kombinovat hodnoty do konzistentních skupin.
Představte si ukázkovou tabulku se sloupcem ID , který obsahuje sadu ID a sloupec Person obsahující sadu různých napsaných a velkých písmen jmen Miguel, Mike, William a Bill.
V tomto příkladu je výsledek, který hledáte, tabulka s novým sloupcem, který zobrazuje správné skupiny hodnot ze sloupce Osoba , a ne všechny různé varianty stejných slov.
Poznámka:
Funkce hodnot clusteru je dostupná jenom pro Power Query Online.
Vytvoření sloupce clusteru
Pokud chcete hodnoty clusteru, nejprve vyberte sloupec Osoba, přejděte na kartu Přidat sloupec na pásu karet a pak vyberte možnost Hodnoty clusteru.
V dialogovém okně Hodnoty clusteru potvrďte sloupec, ze kterého chcete clustery vytvořit, a zadejte nový název sloupce. V tomto případě pojmenujte tento nový sloupec Cluster.
Výsledek této operace je znázorněn na následujícím obrázku.
Poznámka:
U každého clusteru hodnot Vybere Power Query z vybraného sloupce nejčastější instanci jako kanonický. Pokud se s stejnou frekvencí vyskytuje více instancí, Power Query vybere první z nich.
Použití možností přibližného clusteru
Pro hodnoty clusteringu v novém sloupci jsou k dispozici následující možnosti:
- Prahová hodnota podobnosti (volitelná):: Tato možnost označuje, jak podobné dvě hodnoty musí být seskupené dohromady. Minimální nastavení nuly (0) způsobí seskupení všech hodnot. Maximální nastavení 1 umožňuje seskupit pouze hodnoty, které přesně odpovídají. Výchozí hodnota je 0,8.
- Ignorovat malá a velká písmena: Při porovnávání textových řetězců se velká a malá písmena ignorují. Tato možnost je ve výchozím nastavení povolená.
- Seskupit pomocí kombinování textových částí: Algoritmus se pokusí zkombinovat textové části (například zkombinovat Mikro a soft do Microsoftu) a seskupit hodnoty.
- Zobrazit skóre podobnosti: Zobrazuje skóre podobnosti mezi vstupními hodnotami a vypočítané reprezentativní hodnoty po přibližné shlukování.
- Transformační tabulka (volitelné): Můžete vybrat transformační tabulku, která mapuje hodnoty (například mapování MSFT na Microsoft), aby je seskupila dohromady.
V tomto příkladu slouží nová transformační tabulka s názvem Moje transformační tabulka k předvedení způsobu mapování hodnot. Tato transformační tabulka má dva sloupce:
- From: Textový řetězec, který chcete vyhledat v tabulce.
- To: Textový řetězec, který se má použít k nahrazení textového řetězce ve sloupci Od .
Důležité
Je důležité, aby tabulka transformace měla stejné sloupce a názvy sloupců, jak je znázorněno na předchozím obrázku (musí mít název Od a Komu), jinak Power Query tuto tabulku nerozpozná jako transformační tabulku a neprobíhá žádná transformace.
Pomocí dříve vytvořeného dotazu poklikejte na krok Clusterované hodnoty a potom v dialogovém okně Hodnoty clusteru rozbalte možnosti clusteru Fuzzy. V části Možnosti clusteru Fuzzy povolte možnost Zobrazit skóre podobnosti. V případě transformační tabulky (volitelné) vyberte dotaz s transformační tabulkou.
Po výběru transformační tabulky a povolení možnosti Zobrazit skóre podobnosti vyberte OK. Výsledkem této operace je tabulka, která obsahuje stejné ID a sloupce Person jako původní tabulka, ale obsahuje také dva nové sloupce s názvem Cluster a Person_Cluster_Similarity. Sloupec Cluster obsahuje správně napsané a velké verze názvů Miguel pro verze Miguel a Mikea a Williama pro verze Bill, Billy a William. Sloupec Person_Cluster_Similarity obsahuje skóre podobnosti pro každý z názvů.
Precepty transformační tabulky
Možná si všimnete, že transformační tabulka v předchozí části značí, že instance Mikea se změní na Miguel a instance Williama se změní na Bill. Ve výsledné tabulce se ale instance Billa a "billy" změnily na Williama. V transformační tabulce je místo přímé cesty Od do To tabulka transformace symetrická během clusteringu, což znamená, že "mike" je ekvivalentem "Miguel" a naopak. Výsledek ekvivalentů zadaných v tabulce transformace závisí na následujících pravidlech:
- Pokud existuje většina identických hodnot, mají tyto hodnoty přednost před neidentickými hodnotami.
- Pokud žádná většina hodnot neexistuje, má tato hodnota přednost.
Například v původní tabulce použité v tomto článku tvoří verze Miguel (miguel i Miguel) ve sloupci Person většinu výskytů jména Miguel a Mikea. Kromě toho název Miguel s počátečními caps tvoří většinu názvu Miguel. Takže přidružení Miguela a jeho derivátů a Mike a jeho derivátů v transformační tabulce má za následek název Miguel použitý ve sloupci Cluster .
Pro jména William, Bill a "billy" ale neexistuje většina hodnot, protože všechny tři jsou jedinečné. Protože se William zobrazuje jako první, William se používá ve sloupci Cluster . Pokud se "faktura" objevila jako první v tabulce, použije se ve sloupci Cluster "billy". Vzhledem k tomu, že neexistuje většina hodnot, používá se velká a malá písmena jednotlivých názvů. To znamená, že pokud je William první, William s velkým písmenem "W" se použije jako výsledná hodnota; Pokud je "billy" první, použije se "billy" s menším písmenem "b".