Zoskupenie alebo súhrn riadkov
V doplnku Power Query môžete zoskupiť hodnoty v rôznych riadkoch do jednej hodnoty zoskupením riadkov podľa hodnôt v jednom alebo viacerých stĺpcoch. Môžete si vybrať z dvoch typov operácií zoskupenia:
Zoskupenia stĺpcov.
Zoskupenia riadkov.
V tomto kurze používate nasledujúcu ukážková tabuľku.
Snímka obrazovky tabuľky so stĺpcami zobrazujúcimi Rok (2020), Krajina (USA, Panama alebo Kanada), produkt (tričko alebo šortky), predajný kanál (online alebo predajca) a jednotky (rôzne hodnoty od 55 do 7500)
Tlačidlo Zoskupiť podľa nájdete na troch miestach:
Na karte Domov v skupine Transformovať .
Na karte Transformovať v skupine Tabuľka .
Keď kliknete pravým tlačidlom myši v kontextovej ponuke, vyberiete stĺpce.
V tomto príklade bude vaším cieľom sumarizovať celkový počet predaných jednotiek na úrovni krajiny a predajného kanála. Na vykonanie skupiny podľa operácie použite stĺpce Country (Krajina ) a Sales Channel (Predajný kanál ).
- Na karte Domov vyberte položku Zoskupovať podľa.
- Vyberte možnosť Rozšírené, aby ste mohli vybrať viacero stĺpcov, podľa ktoré chcete zoskupiť.
- Vyberte stĺpec Country ( Krajina ).
- Vyberte položku Pridať zoskupenie.
- Vyberte stĺpec Sales Channel (Kanál predaja).
- Do poľa Názov nového stĺpca zadajte Text Celkový odbyt jednotiek, do časti Operácia vyberte položku Súčet a do poľa Stĺpec vyberte možnosť Jednotky.
- Vyberte položku OK
V tejto operácii je uvedená nasledujúca tabuľka.
S funkciou Zoskupiť podľa možno dostupné operácie kategorizovať dvoma spôsobmi:
- Operácia na úrovni riadkov
- Operácia na úrovni stĺpca
Nasledujúca tabuľka popisuje každú z týchto operácií.
Názov operácie | Kategória | Description |
---|---|---|
Sum | Operácia stĺpca | Sčíta všetky hodnoty zo stĺpca |
Priemerná | Operácia stĺpca | Vypočíta priemernú hodnotu zo stĺpca |
Medián | Operácia stĺpca | Vypočíta medián zo stĺpca |
Min | Operácia stĺpca | Vypočíta minimálnu hodnotu zo stĺpca |
Max | Operácia stĺpca | Vypočíta maximálnu hodnotu zo stĺpca |
Percentil | Operácia stĺpca | Vypočíta percentil zo stĺpca pomocou vstupnej hodnoty od 0 do 100. |
Spočítať jedinečné hodnoty | Operácia stĺpca | Vypočíta počet jedinečných hodnôt zo stĺpca |
Spočítať riadky | Operácia riadka | Vypočíta celkový počet riadkov z danej skupiny |
Spočítať jedinečné riadky | Operácia riadka | Vypočíta počet jedinečných riadkov z danej skupiny |
Všetky riadky | Operácia riadka | Výstupom sú všetky zoskupené riadky v hodnote tabuľky bez agregácií. |
Poznámka
Jedinečné hodnoty Počtu a Operácie percentilu sú k dispozícii iba v Power Query Online.
Počnúc pôvodnou vzorkou v tomto príklade vytvoríte stĺpec obsahujúci celkový počet jednotiek a ďalšie dva stĺpce, ktoré vám pomenujú a predané jednotky pre produkt s najvyšším výkonom, ktorý je zhrnutý na úrovni krajiny a predajného kanála.
Nasledujúce stĺpce použite ako skupinu podľa stĺpcov:
- Krajina
- Predajný kanál
Vytvorte dva nové stĺpce pomocou nasledujúcich krokov:
- Agregácia stĺpca Jednotky pomocou operácie Súčet . Pomenujte tento stĺpec Celkový predaj jednotiek.
- Pridajte nový stĺpec Products pomocou operácie Všetky riadky .
Po dokončení tejto operácie si všimnite, ako má stĺpec Products v každej bunke hodnoty [Tabuľka]. Každá hodnota [Tabuľka] obsahuje všetky riadky, ktoré boli zoskupené podľa stĺpcov Country (Krajina ) a Sales Channel (Kanál predaja) z pôvodnej tabuľky. Môžete vybrať prázdny priestor vo vnútri bunky a zobraziť ukážku obsahu tabuľky v dolnej časti dialógového okna.
Poznámka
Na table s ukážkou podrobností sa nemusia zobrazovať všetky riadky použité pre operáciu zoskupenia. Môžete vybrať hodnotu [Tabuľka], aby sa zobrazili všetky riadky týkajúce sa zodpovedajúcej operácie zoskupenia.
Potom je potrebné extrahovať riadok, ktorý má najvyššiu hodnotu v stĺpci Jednotky v tabuľkách v novom stĺpci Products , a zavolať tento nový stĺpec Produkt s najvyšším výkonom.
V novom stĺpci Products (Produkty ) s hodnotami [Tabuľka] vytvoríte nový vlastný stĺpec tak, že na karte Pridať stĺpec na páse s nástrojmi vyberiete položku Vlastný stĺpec zo skupiny Všeobecné .
Pomenujte nový stĺpec Produkt s najvyšším výkonom. Zadajte vzorec Table.Max([Products], "Units" )
do časti Vzorec vlastného stĺpca.
Výsledkom tohto vzorca sa vytvorí nový stĺpec s hodnotami [Záznam]. Tieto hodnoty záznamu sú v podstate tabuľkou len s jedným riadkom. Tieto záznamy obsahujú riadok s maximálnou hodnotou pre stĺpec Jednotky každej hodnoty [Tabuľka] v stĺpci Produkty .
S týmto novým stĺpcom produktu Top performer (Najlepšie výsledky), ktorý obsahuje hodnoty [Record], môžete vybrať ikonu rozbalenia, vybrať polia Produkt a Jednotky a potom vybrať položku OK.
Keď odstránite stĺpec Products a nastavíte typ údajov pre oba novo rozbalené stĺpce, výsledok bude pripomínať nasledujúci obrázok.
Poznámka
Nasledujúca funkcia je k dispozícii len v Power Query Online.
Ak chcete ukázať, ako na to "približné zoskupenie", zvážte ukážku tabuľky zobrazenú na nasledujúcom obrázku.
Cieľom približného zoskupenia je vykonať operáciu zoskupenia, ktorá pre textové reťazce používa algoritmus približnej zhody. Power Query používa algoritmus podobnosti Jaccard na meranie podobnosti medzi pármi inštancií. Potom použije aglomeratívne hierarchické klastrovanie na zoskupenie inštancií. Nasledujúci obrázok znázorňuje očakávaný výstup, v ktorom je tabuľka zoskupená podľa stĺpca Osoba .
Ak chcete vykonať približné zoskupenie, vykonajte rovnaké kroky, aké boli predtým popísané v tomto článku. Jediný rozdiel je v tom, že tentoraz v dialógovom okne Zoskupiť podľa začiarknite políčko Použiť približné zoskupenie .
Pre každú skupinu riadkov Power Query vyberie najčastejšie inštanciu ako "kanonickú" inštanciu. Ak sa vyskytujú viaceré inštancie s rovnakou frekvenciou, Power Query vyberie prvú inštanciu. Po výbere tlačidla OK v dialógovom okne Zoskupiť podľa získate očakávaný výsledok.
Nad operáciou približného zoskupenia však máte väčšiu kontrolu tým, že rozbalíte možnosti skupiny Fuzzy.
Pre približné zoskupenie sú k dispozícii tieto možnosti:
- Prahová hodnota podobnosti (voliteľné): Táto možnosť označuje, ako musia byť podobné dve hodnoty zoskupené. Minimálnym nastavením nuly (0) sa zoskupia všetky hodnoty. Maximálne nastavenie 1 umožňuje zoskupiť hodnoty, ktoré sa presne zhodujú. Predvolená hodnota je 0,8.
- Ignorovať malé a veľké písmená: Pri porovnávaní textových reťazcov sa veľké a malé písmená ignorujú. Táto možnosť je predvolene zapnutá.
- Zoskupenie skombinovaním častí textu: Algoritmus sa snaží skombinovať textové časti (ako napríklad kombináciu mikro a mäkkej do spoločnosti Microsoft) a zoskupiť hodnoty.
- Zobraziť skóre podobnosti: Zobrazí skóre podobnosti medzi vstupnými hodnotami a vypočítavaným reprezentatívnymi hodnotami po približnom zoskupení. Vyžaduje pridanie operácie, ako sú napríklad všetky riadky , na prezentovanie tejto informácie na úrovni riadkov.
- Tabuľka transformácie (voliteľné): Môžete vybrať tabuľku transformácie, ktorá mapuje hodnoty (napríklad mapovanie MSFT do spoločnosti Microsoft) a zoskupí ich.
V tomto príklade sa používa tabuľka transformácie na znázornenie toho, ako možno mapovať hodnoty. Tabuľka transformácie má dva stĺpce:
- Od: Textový reťazec, ktorý sa má vyhľadať v tabuľke.
- Ak chcete: Textový reťazec, ktorý sa má použiť na nahradenie textového reťazca v stĺpci Od .
Na nasledujúcom obrázku je znázornená tabuľka transformácií použitá v tomto príklade.
Dôležité
Je dôležité, aby mala transformačná tabuľka rovnaké stĺpce a názvy stĺpcov ako na predchádzajúcom obrázku (musia byť označené ako "Od" a "Do"). V opačnom prípade Power Query tabuľku nerozpozná ako tabuľku transformácie.
Vráťte sa do dialógového okna Zoskupiť podľa , rozbaľte možnosti skupiny Fuzzy, zmeňte operáciu z možnosti Počet riadkov na možnosť Všetky riadky, povoľte možnosť Zobraziť skóre podobnosti a potom vyberte rozbaľovaciu ponuku Tabuľka transformácie.
Po výbere tabuľky transformácie vyberte tlačidlo OK. Výsledok tejto operácie vám poskytne nasledujúce informácie:
V tomto príklade bola povolená možnosť Ignorovať prípad, takže hodnoty v stĺpci Od v tabuľke transformácie sa používajú na vyhľadanie textového reťazca bez toho, aby sa uvažovalo o prípade reťazca. Táto operácia transformácie sa vykoná najprv a potom sa vykoná približná operácia zoskupenia.
Skóre podobnosti sa zobrazuje aj v hodnote tabuľky vedľa stĺpca osoba, ktorá presne odráža, ako boli hodnoty zoskupené a ich príslušné skóre podobnosti. Tento stĺpec môžete v prípade potreby rozbaliť alebo môžete použiť hodnoty z nových stĺpcov Frequency pre iné druhy transformácií.
Poznámka
Pri zoskupovaní podľa viacerých stĺpcov vykoná tabuľka transformácie operáciu nahradenia vo všetkých stĺpcoch, ak nahradením hodnoty sa zvýši skóre podobnosti.
Ďalšie informácie o fungovaní tabuliek transformácie nájdete v téme Ukážky tabuľky transformácie.