Čištění a transformace dat pomocí editoru Power Query

Dokončeno

Když jsme teď připojení ke zdroji dat pomocí Microsoft Power BI Desktopu, potřebujeme data upravit tak, aby odpovídala našim požadavkům. Úprava někdy znamená transformaci dat, jako je přejmenování sloupců nebo tabulek, převod textu na čísla, odebrání řádků nebo nastavení prvního řádku jako záhlaví.

Editor Power Query v Power BI Desktopu má úlohy dostupné na pásu karet a navíc hojně využívá místní nabídky (také se jim říká nabídky zobrazované po kliknutí pravým tlačítkem nebo kontextové nabídky). Většina toho, co můžete vybrat na kartě Transformace na pásu karet, je taká dostupná po kliknutí pravým tlačítkem na položku (jako je sloupec) a potom vybráním příkazu z místní nabídky, která se zobrazí.

Formování dat

Když formujete data v editoru Power Query, poskytujete podrobné pokyny, které editor Power Query provede za vás k úpravě dat při jejich načítání a prezentování. Původní zdroj dat není ovlivněn. Pouze toto zobrazení dat se upravuje (neboli formuje).

Kroky, které zadáte (třeba přejmenování tabulky, transformace datového typu nebo odstranění sloupců), jsou zaznamenány editorem Power Query. Tyto kroky se pak provádějí pokaždé, když je dotaz připojen ke zdroji dat, aby byla data vždy formována způsobem, který zadáte. Tento proces se provádí při každém použití dotazu v Power BI Desktopu nebo vždy, když někdo jiný použije váš sdílený dotaz (například ve službě Power BI). Tyto kroky se zaznamenávají v zadaném pořadí v podokně Nastavení editoru Power Query v seznamu Použitý postup.

Na následujícím obrázku vidíme podokno Nastavení dotazů pro dotaz, který byl formován. V několika dalších odstavcích si projdeme jednotlivé kroky.

Nastavení dotazů

Teď se vraťme zpátky k našim důchodovým datům, která jsme našli připojením k webovému zdroji dat, a pojďme tato data formovat podle potřeby.

Poznámka

Pokud jste si nestáhli ukázkovou datovou sadu, podívejte se na stránku předchozí lekce.

Potřebujeme, aby data měla číselnou podobu. V tomto případě jsou v pořádku, ale pokud byste někdy potřebovali datový typ změnit, stačí pravým tlačítkem kliknout na záhlaví sloupce a vybrat Změnit typ > Celé číslo. Pokud potřebujete změnit více než jeden sloupec, vyberte jeden z nich a při výběru dalších sousedících sloupců podržte klávesu Shift. Potom pravým tlačítkem myši klikněte na záhlaví sloupce, aby se všechny vybrané sloupce změnily. Můžete také použít Ctrl k výběru nesousedících sloupců.

Použitý krok změnil typ

Poznámka

Power Query často detekuje, že sloupec textu by měl mít číselnou podobu, a při přenesení tabulky do editoru Power Query za vás datový typ automaticky změní. V tomto případě krok ze seznamu Použitý postup identifikuje, co editor Power Query udělal za vás.

Tyto sloupce také můžete změnit nebo transformovat na záhlaví použitím karty Transformace na pásu karet. Karta Transformace je znázorněna na následujícím obrázku. Červené pole zvýrazní tlačítko Datový typ , které umožňuje transformovat aktuální datový typ na jiný.

Pás karet Transformace a tlačítko Datový typ

Všimněte si, že seznam Použitý postup v podokně Nastavení dotazů odráží všechny provedené změny. Pokud chcete z postupu formování nějaký krok odebrat, stačí ho vybrat a potom nalevo od něj vybrat X.

Okno Nastavení dotazů

Připojení k datům

Data o různých státech jsou zajímavá a budou užitečná při vytváření dalších analýz a dotazů. Ale je tu problém: většina dat tady nepoužívá plný název státu, ale jenom jeho dvoupísmennou zkratku. Proto potřebujeme způsob, jak ke zkratkám států přidružit jejich plný název.

Máme štěstí. Existuje jiný veřejný zdroj dat, který dělá právě to, ale než ho budeme moct připojit k naší důchodové tabulce, je potřeba ho ještě dost upravit. Tady je webový prostředek pro zkratky států na webu:

http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations

V editoru Power Query vyberte na kartě Domů na pásu karet Nový zdroj > Web. Pak zadejte adresu a vyberte OK. Okno Navigátor zobrazí, co na webové stránce našlo.

Zkratky států USA z webu

Vyberte tabulku Codes and abbreviations (Kódy a zkratky), protože zahrnuje požadovaná data. Ale vyfiltrování dat si vyžádá hodně formování.

Výběrem možnosti Načíst přeneste data do editoru Power Query, abychom je mohli formovat. Potom postupujte podle těchto kroků:

  • Odeberte první tři řádky – Tyto řádky odpovídají tomu, jak byla tabulka na webové stránce vytvořena, a k ničemu je nepotřebujeme. Pokud je chcete odebrat, vyberte na kartě Domů na pásu karet Odebrat řádky > Odebrat horní řádky. V dialogovém okně, které se zobrazí, zadejte 3 jako počet řádků, které chcete odebrat.

    Odebrání horních řádků

  • Odeberte dolních 26 řádků – Tyto řádky představují všechna teritoria, která nepotřebujeme zahrnout. Postup je stejný, jenom tentokrát vyberete Odebrat řádky > Odebrat dolní řádky a jako počet řádků k odebrání zadáte 26.

    Odebrat dolní řádky

  • Vyfiltrujte Washington DC – Tabulka důchodových statistik nezahrnuje DC, takže tento stát z našeho seznamu vyřadíme. Vyberte šipku rozevíracího seznamu vedle sloupce Federal state (Federální stát ) a zrušte zaškrtnutí políčka Federal district (Federální oblast ).

    Odebrání řádku obsahujícího konkrétní hodnotu

  • Odeberte pár nepotřebných sloupců – potřebujeme jenom mapování jednotlivých států na jeho oficiální dvoumísmennou zkratku a informace jsou uvedené v prvním a čtvrtém sloupci. Proto potřebujeme zachovat jen tyto dva sloupce a všechny ostatní můžeme odebrat. Vyberte první sloupec, který se má odebrat, při výběru ostatních sloupců k odebrání podržte klávesu Ctrl (tento postup umožňuje vybrat několik vzájemně nesousedících sloupců). Potom na kartě Domů na pásu karet vyberte Odebrat sloupce > Odebrat sloupce.

    Odebrání konkrétních sloupců

  • Použijte první řádek jako záhlaví – Protože jsme odebrali první tři řádky, je aktuální horní řádek požadovaným záhlavím. Vyberte tlačítko Použít první řádek jako záhlaví.

    Použít první řádek jako záhlaví

    Poznámka

    Teď je vhodné ukázat si, že pořadí použitých kroků v editoru Power Query je důležité a může ovlivnit výsledné naformování dat. Je také důležité vzít v úvahu, jak jeden krok může ovlivnit jiný následující krok. Pokud odeberete krok ze seznamu Použitý postup, následné kroky nemusí fungovat tak, jak jste původně zamýšleli, a to kvůli pořadí kroků v rámci dotazu.

  • Přejmenujte sloupce a samotnou tabulku – Jako obvykle existuje několik způsobů, jak přejmenovat sloupec. Můžete použít, jaký způsob chcete. Pojďme je přejmenovat na Název státu a Kód státu. Pokud chcete tabulku přejmenovat, stačí zadat požadovaný název do pole Název v podokně Nastavení dotazů. Celou tabulku nazveme StateCodes (KódyStátů).

    Přejmenování sloupců

Kombinování dat

Když je teď tabulka StateCodes (KódyStátů) naformovaná, můžeme naše dvě tabulky zkombinovat do jedné. Protože tabulky, které teď máme, jsou výsledkem dotazů, které jsme použili na data, říká se jim často dotazy.

Existují dva základní způsoby kombinování tabulek: sloučení a připojení.

Když máte jeden nebo více sloupců, které chcete přidat k jinému dotazu, pak tyto dotazy sloučíte. Pokud máte další řádky dat, které chcete přidat ke stávajícímu dotazu, pak tento dotaz připojíte.

V tomto případě chceme dotazy sloučit. Abyste mohli začít, vyberte dotaz, se kterým se má druhý dotaz sloučit. Potom na kartě Domů na pásu karet vyberte Sloučit dotazy. Jako první chceme vybrat náš důchodový dotaz. Když už u něj jsme, pojďme tento dotaz přejmenovat na RetirementStats.

Tlačítko Sloučit dotazy

Zobrazí se dialogové okno Sloučit s výzvou, abychom vybrali tabulku, kterou chceme sloučit s vybranou tabulkou, a potom sloupce, na základě kterých se má sloučení provést.

Vyberte State (Stát) z tabulky (dotazu) RetirementStats a pak vyberte dotaz StateCodes (KódyStátů). (V tomto případě je volba snadná, protože existuje pouze jeden další dotaz. Když se ale připojíte k mnoha zdrojům dat, můžete si vybrat z mnoha dotazů.) Po výběru správných odpovídajících sloupců – State (Stát ) z RetirementStats a State Name (Název státu ) z StateCodes (Kódy států) bude dialogové okno Sloučit vypadat takto a tlačítko OK bude k dispozici.

Dialogové okno Sloučit

Na konci dotazu se vytvoří NewColumn a je to obsah tabulky (dotazu), který se sloučil se stávajícím dotazem. V NewColumn jsou zhuštěné všechny sloupce ze sloučeného dotazu, ale můžete tabulku rozbalit a zahrnout sloupce, které chcete. Pokud chcete rozbalit sloučenou tabulku a vybrat sloupce, které chcete zahrnout, vyberte ikonu rozbalení (ikona rozbalení). Zobrazí se dialogové okno Rozbalit.

Dialogové okno Rozbalit

V tomto případě chceme jen sloupec Kód státu. Proto vyberte pouze ten sloupec a pak vyberte OK. Můžete také zrušit zaškrtnutí políčka Používat původní název sloupce jako předponu. Pokud je necháte zaškrtnuté, bude sloučený sloupec pojmenován NewColumn.Kód státu (původní název sloupce nebo NewColumn, potom tečka a pak název sloupce, který se má přenést do dotazu).

Poznámka

Pokud chcete, můžete si pohrát s tím, jak bude tabulka NewColumn přenesena. Pokud se vám výsledky nelíbí, stačí odstranit krok Rozbalit ze seznamu Použitý postup v podokně Nastavení dotazů. Dotaz se vrátí do stavu, ve kterém se nacházel před použitím tohoto kroku. Je to jako bezplatná předělávka, kterou můžete udělat, kolikrát chcete, dokud proces rozbalení nebude vypadat tak, jak chcete.

Teď máme jeden dotaz (tabulku) kombinující dva zdroje dat, které byly oba formované tak, aby vyhovovaly našim potřebám. Tento dotaz může sloužit jako základ pro spoustu dalších zajímavých datových připojení, jako jsou třeba statistika nákladů na bydlení, demografické údaje nebo pracovní příležitosti v libovolném státu.

Pokud chcete změny v editoru Power Query použít a načíst je do Power BI Desktopu, vyberte možnost Zavřít a použít na kartě Domů na pásu karet.

Zavření a použití nastavení dat

Teď jsou data ve vašem modelu připravená k dalšímu zpracování. V dalším kroku vytvoříme pro vaši sestavu nějaké vizuály.

Prozatím máte dostatek dat pro vytvoření několika zajímavých sestav, a to všechno v rámci Power BI Desktopu. Protože se jedná o milník, pojďme tento soubor Power BI Desktopu uložit. Výběrem možností Soubor > Uložit na kartě Domů na pásu karet sestavu uložte – nazveme ji Začínáme s Power BI Desktopem.

Výborně! A teď můžeme přejít k další jednotce, kde vytvoříme pár zajímavých vizuálů.