Profilování dat v Power BI

Dokončeno

Profilování dat spočívá ve zkoumání drobných rozdílů v datech, ve zjišťování odchylek, v průzkumu a vývoji souvisejících datových struktur a v dotazování na statistiky o datech, jako je počet řádků, rozdělení hodnot, minimální a maximální hodnoty, průměry apod. Jde o důležitý princip, který umožňuje formátovat a uspořádat data tak, abyste je mohli jednoduše používat a bez problémů zjistit jejich rozdělení. Práce s daty ve front-endu při vývoji prvků sestavy pak nevyžaduje téměř žádné úsilí.

Předpokládejme, že v organizaci vyvíjíte sestavy pro prodejní tým.  Neznáte strukturu dat ani obsah tabulek. Proto než začnete vyvíjet vizuály, chcete data na pozadí profilovat.  Power BI má vlastní funkce, díky kterým jsou tyto úkoly uživatelsky přívětivé a jednoduché.

Zkoumání datových struktur

Než začnete v Editoru Power Query zkoumat data, měli byste se napřed seznámit se souvisejícími datovými strukturami, ve kterých jsou data uspořádaná. Aktuální sémantický model můžete zobrazit na kartě Model na Power BI Desktop.

Příklad datové struktury a pás karet

Na kartě Model můžete upravit konkrétní vlastnosti sloupců a sloupců tak, že vyberete tabulku nebo sloupce a data můžete transformovat pomocí tlačítka Transformovat data, které vás přenese do Editor Power Query. Kromě toho můžete spravovat, vytvářet, upravovat a odstraňovat relace mezi různými tabulkami pomocí Správa relací, který je umístěný na pásu karet.

Zjišťování odchylek v datech a statistik o datech

Jakmile vytvoříte připojení ke zdroji dat a vyberete možnost Transformovat data, budete přesměrováni do Editoru Power Query, kde můžete v datech zjišťovat odchylky.  Datové odchylky jsou odlehlé hodnoty v datech. Pokud se vám tyto odchylky podaří určit, budete umět zjistit, jak vypadá normální rozdělení dat, a identifikovat určité datové body, kterým se budete věnovat podrobněji. Editor Power Query určuje datové anomálie pomocí funkce Sloupcová distribuce.

Na pásu karet vyberte Zobrazení a v části Náhled dat si můžete vybrat z několika možností. Pokud chcete porozumět datovým anomáliím a statistikám, vyberte možnosti Distribuce sloupců, Kvalita sloupce a Profil sloupce .  Zobrazené statistiky jsou vidět na následujícím obrázku.

Kvalita sloupců a Rozdělení sloupců se zobrazují v grafech nad sloupci dat. Kvalita sloupce zobrazuje procento platných, chybných a prázdných dat. V ideálním případě chcete, aby bylo 100 procent dat platných.

Odchylky ve sloupci dat a jeho statistiky

Poznámka

Ve výchozím nastavení Power Query prozkoumá prvních 1000 řádků datové sady. Pokud to chcete změnit, vyberte ve stavovém řádku stav profilace a vyberte Profilace sloupců na základě celé sady dat. ]

Z Distribuce sloupce zjistíte, jak jsou data ve sloupci rozdělena. Zjistíte také počty jedinečných hodnot. Oba údaje podrobně informují o počtech dat. Jedinečné hodnoty jsou všechny různé hodnoty ve sloupci, včetně duplicit a hodnot null, zatímco jedinečné hodnoty neobsahují duplicity ani hodnoty null. Funkce distinct v této tabulce vám tedy řekne celkový počet hodnot, kolik hodnot je k dispozici, zatímco jedinečné vám řekne, kolik z těchto hodnot se zobrazí jenom jednou.

Profil sloupce poskytuje podrobnější pohled na statistiky ve sloupcích pro prvních 1 000 řádků dat. V tomto sloupci najdete různé hodnoty, včetně počtu řádků. Ten je důležitý, když ověřujete úspěšnost importu dat. Například pokud je v původní databázi 100 řádků, můžete tento údaj použít, když chcete ověřit, jestli se skutečně podařilo správně naimportovat 100 řádků. Tento počet řádků navíc ukáže, kolik řádků, které Power BI považuje za odlehlé, prázdných řádků a řetězců a minimální a maximální hodnotu, která vám řekne nejmenší a největší hodnotu ve sloupci. Toto rozlišení je obzvláště důležité v případě číselných dat, protože vás okamžitě upozorní, pokud máte maximální hodnotu nad rámec toho, co vaše firma identifikuje jako "maximum". Tato hodnota vás na tyto hodnoty upozorní, což znamená, že se pak můžete zaměřit na to, když se ponoříte hlouběji do dat.  V případě, že jsou data v textovém sloupci (viz předchozí obrázek), je minimální hodnota první hodnotou a maximální hodnota poslední hodnotou v abecedním pořadí.

Graf rozdělení hodnot navíc uvádí počty pro každou jedinečnou hodnotu v daném sloupci. Při pohledu na graf na předchozím obrázku si všimněte, že rozdělení hodnot označuje, že "Anthony Gross" se ve sloupci SalesPerson zobrazuje nejvícekrát a že "Lily Code" se zobrazuje nejméněkrát. Tato informace je zvlášť důležitá, protože identifikuje odlehlé hodnoty.  Pokud je hodnota ve sloupci mnohem častěji než jiné hodnoty, umožňuje funkce Distribuce hodnoty zjistit místo, ze kterého začnete pátrat po příčině.

V číselném sloupci bude statistika sloupce také obsahovat počet nul a hodnot null spolu s průměrnou hodnotou ve sloupci, směrodatnou odchylku hodnot ve sloupci a počet sudých a lichých hodnot ve sloupci. Z těchto statistik si uděláte představu o rozdělení dat ve sloupci. Statistiky jsou důležité, protože shrnují data ve sloupci a slouží jako výchozí bod při zjišťování odlehlých hodnot.

Například při procházení dat faktur si všimnete, že graf Distribuce hodnot ukazuje, že několik prodejců ve sloupci SalesPerson (Prodejce ) se v datech zobrazuje se stejným počtem výskytů. Kromě toho si všimnete, že stejná situace nastala ve sloupci Profit a v několika dalších tabulkách. Podrobnějším pátráním zjistíte, že používaná data nebyla správná a bylo potřeba je aktualizovat, takže je hned aktualizujete. Bez grafu byste tuto chybu tak rychle nezjistili, a proto je rozdělení hodnot tak užitečné.

Jakmile dokončíte úpravy v Editor Power Query a budete připraveni začít vytvářet vizuály, vraťte se na pásu karet Editor Power Query na domů. Vyberte Zavřít & Použít, čímž se vrátíte do Power BI Desktop a použijí se také všechny úpravy a transformace sloupců.

Teď jste určili prvky, které tvoří data profilace v Power BI, mezi které patří načítání dat v Power BI, dotazování vlastností sloupce, abyste získali přehled o typu a formátu dat ve sloupcích a mohli je dále upravovat, zjišťovat datové anomálie a zobrazovat statistiky dat v Editor Power Query. S těmito znalostmi získanými pomocí sady nástrojů můžete data studovat účinným a efektivním způsobem.