Použití nástrojů pro profilaci dat
Nástroje pro profilaci dat poskytují nové a intuitivní způsoby čištění, transformace a pochopení dat v Editor Power Query. Patří sem:
Kvalita sloupce
Distribuce sloupce
Profil sloupce
Pokud chcete povolit nástroje pro profilaci dat, přejděte na kartu Zobrazení na pásu karet. V Power Query Desktopu povolte požadované možnosti ve skupině Náhled dat, jak je znázorněno na následujícím obrázku.
V Power Query Online vyberte Zobrazení dat a potom povolte požadované možnosti v rozevíracím seznamu.
Po povolení možností se v Editor Power Query zobrazí něco jako na následujícím obrázku.
Poznámka:
Power Query ve výchozím nastavení provádí profilaci dat přes prvních 1 000 řádků dat. Pokud chcete, aby fungovala s celou sadou dat, vyberte profilaci sloupců na základě prvních 1000 řádků v levém dolním rohu okna editoru a změňte profilaci sloupců na profilaci sloupců na základě celé sady dat.
Kvalita sloupce
Kvalita sloupce označuje hodnoty v řádcích v pěti kategoriích:
Platné, zobrazené zeleně.
Chyba zobrazená červeně
Prázdné, zobrazené tmavě šedá.
Neznámý, zobrazený v přerušované zelené barvě. Označuje, kdy ve sloupci dojde k chybám, kvalita zbývajících dat je neznámá.
Neočekávaná chyba zobrazená červeně přerušovaná
Tyto indikátory se zobrazují přímo pod názvem sloupce jako součást malého pruhového grafu, jak je znázorněno na následujícím obrázku.
Počet záznamů v každé kategorii kvality sloupce se také zobrazuje jako procento.
Když najedete myší na některý ze sloupců, zobrazí se číselná distribuce kvality hodnot v celém sloupci. Výběrem tlačítka se třemi tečky (...) se navíc otevře několik tlačítek rychlých akcí pro operace s hodnotami.
Distribuce sloupce
Tato funkce poskytuje sadu vizuálů pod názvy sloupců, které znázorňují frekvenci a distribuci hodnot v jednotlivých sloupcích. Data v těchto vizualizacích se seřadí sestupně od hodnoty s nejvyšší frekvencí.
Když najedete myší na distribuční data v libovolném sloupci, získáte informace o celkových datech ve sloupci (s jedinečným počtem a jedinečnými hodnotami). Distinct odkazuje na celkový počet různých hodnot v každém sloupci. Jedinečné odkazuje na hodnoty, které mají ve sloupci pouze jednu instanci. Můžete také vybrat tlačítko se třemi tečky a vybrat z nabídky dostupných operací.
Profil sloupce
Tato funkce poskytuje podrobnější pohled na data ve sloupci. Kromě distribučního grafu sloupců obsahuje sloupcový graf statistiky. Tyto informace se zobrazí pod částí náhledu dat, jak je znázorněno na následujícím obrázku.
Filtrovat podle hodnoty
S distribučním grafem hodnot na pravé straně můžete pracovat a vybrat některý z pruhů tak, že najedete myší na části grafu.
Kliknutím pravým tlačítkem myši zobrazíte sadu dostupných transformací pro danou hodnotu.
Kopírování dat
V pravém horním rohu oddílů statistiky sloupce i distribuce hodnot můžete vybrat tlačítko se třemi tečkami (...) a zobrazit místní nabídku Kopírovat . Vyberte je, pokud chcete zkopírovat data zobrazená v obou oddílech do schránky.
Seskupení podle hodnoty
Když vyberete tlačítko se třemi tečkou (...) v pravém horním rohu distribučního grafu hodnot, můžete vedle možnosti Kopírovat vybrat možnost Seskupit podle. Tato funkce seskupí hodnoty v grafu podle sady dostupných možností.
Následující obrázek ukazuje sloupec názvů produktů seskupených podle délky textu. Po seskupení hodnot v grafu můžete pracovat s jednotlivými hodnotami v grafu, jak je popsáno v části Filtrovat podle hodnoty.