Úvod
Zamyslete se nad scénářem, ve kterém jste naimportovali data do Power BI z několika různých zdrojů a když data prozkoumáte, zjistíte, že nejsou připravená pro analýzu. Co může být důvodem nepřipravenosti dat pro analýzu?
Při prozkoumávání dat zjistíte několik problémů, včetně následujících:
Sloupec s názvem Employment status obsahuje pouze čísla.
Několik sloupců obsahuje chyby.
Některé sloupce obsahují hodnoty null.
ID zákazníka vypadá v některých sloupcích, jako by se opakovaně duplikovalo.
V jednom sloupci adresy je zkombinována ulice, město, stát a PSČ.
Začnete s daty pracovat, ale pokaždé, když vytvoříte vizuály v sestavách, získáte chybná data, nesprávné výsledky a jednoduché sestavy celkových prodejů jsou chybné.
Zašpiněná data můžou být zahlcení, a i když se můžete cítit frustrovaní, rozhodnete se začít pracovat a přijít na to, jak tento sémantický model udělat co nejčistší.
Power BI a Power Query naštěstí nabízejí výkonné prostředí pro vyčištění a přípravu dat. Vyčištěná data mají tyto výhody:
Míry a sloupce poskytují při provádění agregací a výpočtů přesnější výsledky.
Tabulky jsou uspořádané a uživatelé v nich můžou data vyhledávat intuitivně.
Jsou odebrány duplicity, čímž se usnadní procházení dat. Dále se vytvoří sloupce, které lze použít v průřezech a filtrech.
Komplikovaný sloupec lze rozdělit do dvou jednodušších sloupců. Více sloupců lze sloučit do jednoho sloupce a zlepšit tak čitelnost.
Kódy a celá čísla lze nahradit hodnotami, které jsou pro člověka čitelnější.
V tomto modulu se naučíte:
Řešit problémy s nekonzistentními daty, neočekávanými hodnotami a hodnotami null a také problémy s kvalitou dat.
Používat uživatelsky přívětivé náhrady.
Profilovat data, abyste před použitím určitého sloupce o něm mohli získat další informace.
Vyhodnocovat a transformovat datové typy ve sloupci.
Používat ve strukturách tabulek transformace formátu dat.
Kombinovat dotazy.
Používat ve sloupcích a dotazech zásady vytváření uživatelsky přívětivých názvů.
Upravovat kód M v rozšířeném editoru.