Zrychlení přípravy dat pomocí služby Data Wrangler v Microsoft Fabric

Služba Data Wrangler zrychluje pracovní postup přípravy dat tím, že poskytuje imerzivní vizuální rozhraní pro průzkumnou analýzu dat. V tomto článku se naučíte:

  • Spustit Data Wrangler z prostředí Fabric notebooku
  • Zkoumání dat pomocí interaktivních vizualizací a souhrnných statistik
  • Použití běžných operací čištění dat pomocí automatického generování kódu
  • Exportujte opakovaně použitelné funkce pandas nebo PySpark zpět do svého poznámkového bloku

Tento článek se zaměřuje na datové rámce pandas. Informace o datových rámcích Sparku najdete v tomto prostředku.

Požadavky

Omezení

  • Operace s vlastním kódem aktuálně podporují pouze datové rámce pandas.
  • Zobrazení Wrangler dat funguje nejlépe na velkých monitorech. Můžete ale minimalizovat nebo skrýt různé části rozhraní tak, aby vyhovovaly menším obrazovkám.

Spuštění aplikace Data Wrangler

Data Wrangler můžete spustit přímo z poznámkového bloku Microsoft Fabric a prozkoumat a transformovat libovolný datový rámec pandas nebo Spark.

Začínáme s ukázkovými daty:

Tento fragment kódu ukazuje, jak číst ukázková data do datového rámce pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na kartě Domů na pásu karet notebooku použijte rozevírací nabídku Data Wrangler k procházení aktivních datových rámců dostupných k úpravám. Vyberte ten, který chcete otevřít ve službě Data Wrangler.

Tip

Nemůžete otevřít Data Wrangler, když je jádro poznámkového bloku zaneprázdněné. Provádějící se buňka se musí dokončit před spuštěním služby Data Wrangler, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky zobrazující Fabric notebook s rozevíracím výběrem Data Wrangler.

Výběr vlastních ukázek

Pokud chcete otevřít vlastní ukázku libovolného aktivního datového rámce pomocí objektu Data Wrangler, vyberte v rozevíracím seznamu možnost Zvolit vlastní ukázku , jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s rozevíracím seznamem Data Wrangler s ukázkovou možností

Tato akce otevře dialogové okno s možnostmi určení velikosti požadovaného vzorku (počtu řádků) a metody vzorkování (první záznamy, poslední záznamy nebo náhodná sada). Prvních 5 000 řádků datového rámce slouží jako výchozí velikost vzorku, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s výzvou k vlastní ukázce transformace dat

Zobrazení souhrnných statistik

Když se data Wrangler načte, zobrazí se na panelu Souhrn popisný přehled zvoleného datového rámce. Tento přehled obsahuje informace o dimenzích datového rámce, chybějících hodnotách a dalších. Když vyberete libovolný sloupec v mřížce pro zpracování dat, panel Souhrn se aktualizuje, aby zobrazoval popisné statistiky o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.

Tip

Statistiky a vizuály specifické pro sloupce (na panelu Souhrn i v záhlaví sloupců) závisí na datovém typu sloupce. Například histogram s intervaly číselného sloupce se zobrazí v záhlaví sloupce pouze v případě, že je sloupec přetypován jako číselný typ, jak je vidět na tomto snímku obrazovky:

Snímek obrazovky zobrazující mřížku zobrazení Data Wrangler a panel Souhrn.

Procházení operacemi čištění dat

Operační panel poskytuje prohledávatelný seznam operací čištění dat. Když na panelu Operations panel vyberete operaci čištění dat, musíte zadat cílový sloupec nebo sloupce spolu s potřebnými parametry pro dokončení operace. Například výzva k číselnému škálování sloupce vyžaduje nový rozsah hodnot, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s provozním panelem Transformace dat

Tip

V nabídce záhlaví každého sloupce můžete použít menší výběr operací, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující operaci Data Wrangler, kterou je možné použít z nabídky záhlaví sloupce.

Náhled a aplikace operací

Mřížka zobrazení Data Wrangler automaticky zobrazí náhled výsledků vybrané operace a odpovídající kód se automaticky objeví na panelu pod mřížkou. Pokud chcete potvrdit náhled kódu, vyberte Použít v libovolném umístění. Pokud chcete odstranit náhled kódu a vyzkoušet novou operaci, vyberte Zahodit , jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující probíhající operaci Data Wrangler.

Po použití operace se mřížka zobrazení a souhrnné statistiky Data Wrangleru aktualizují, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací na panelu Kroky čištění , jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující použitou operaci transformace dat

Tip

Poslední použitý krok můžete kdykoli vrátit zpět. Na panelu Čištění kroků se zobrazí ikona koše, když najedete myší na naposledy použitý krok, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující operaci Data Wranglera, kterou lze vrátit

Tato tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje:

Operace Popis
Sort Seřazení sloupce ve vzestupném nebo sestupném pořadí
Filtr Filtrování řádků na základě jedné nebo více podmínek
Jednoznačné kódování Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek.
Binarizátor víceštítkový Rozdělení dat pomocí oddělovače a vytvoření nových sloupců pro každou kategorii, označení 1, pokud má řádek danou kategorii a 0, pokud ne
Změna typu sloupce Změna datového typu sloupce
Odstranit sloupec Odstranění jednoho nebo více sloupců
Vybrat sloupec Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte.
Přejmenovat sloupec Přejmenování sloupce
Odstranit chybějící hodnoty Odebrání řádků s chybějícími hodnotami
Odstranění duplicitních řádků Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích
Vyplnění chybějících hodnot Nahrazení buněk chybějícími hodnotami novou hodnotou
Vyhledání a nahrazení Nahradit buňky vzorem, který přesně odpovídá
Seskupit podle sloupce a agregovat Seskupení podle hodnot sloupců a agregovaných výsledků
Odstraňte prázdné znaky Odebrání prázdných znaků od začátku a konce textu
Rozdělení textu Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače
Převod textu na malá písmena Převod textu na malá písmena
Převod textu na velká písmena Převod textu na VELKÁ PÍSMENA
Škálování minimálních a maximálních hodnot Škálování číselného sloupce mezi minimální a maximální hodnotou
Rychlé doplňování Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce

Přizpůsobení zobrazení

Rozhraní můžete kdykoli přizpůsobit pomocí karty „Zobrazení“ na panelu nástrojů nad mřížkou zobrazení Data Wrangler. Tato možnost může skrýt nebo zobrazit různá podokna podle předvoleb a velikosti obrazovky, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky zobrazující nabídku Data Wrangler pro přizpůsobení zobrazení.

Ukládání a export kódu

Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. Export kódu zavře službu Data Wrangler a přidá novou funkci do buňky kódu v poznámkovém bloku. Vyčištěný datový rámec si také můžete stáhnout jako soubor CSV.

Tip

Data Wrangler generuje kód, který se spustí jenom při ručním spuštění nové buňky a nepřepíše původní datový rámec, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky s možnostmi exportu kódu v objektu Data Wrangler

Pak můžete tento exportovaný kód spustit, jak je znázorněno na tomto snímku obrazovky:

Snímek obrazovky znázorňující kód vygenerovaný službou Data Wrangler zpět v poznámkovém bloku

Další kroky

Teď, když víte, jak používat Data Wrangler s pandas DataFrames, prozkoumejte tyto prostředky:

Chcete se podělit o svůj názor? Podělte se o své nápady ve fóru Fabric Ideas.