Zrychlení přípravy dat pomocí služby Data Wrangler v Microsoft Fabric
Data Wrangler je nástroj založený na poznámkových blocích, který uživatelům poskytuje imerzivní rozhraní pro průzkumnou analýzu dat. Tato funkce kombinuje zobrazení dat podobných mřížce s dynamickými souhrnnými statistikami, integrovanými vizualizacemi a knihovnou běžných operací čištění dat. Každou operaci je možné použít při kliknutích, aktualizaci zobrazení dat v reálném čase a generování kódu v knihovně pandas nebo PySpark, které lze uložit zpět do poznámkového bloku jako opakovaně použitelnou funkci. Tento článek se zaměřuje na zkoumání a transformaci datových rámců pandas. Pokyny pro použití služby Data Wrangler ve sparkových datových rámcích najdete tady.
Požadavky
Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače prostředí na levé straně domovské stránky přepněte na prostředí Synapse Datová Věda.
Omezení
- Data Wrangler v současné době podporuje generování kódu pandas v obecné dostupnosti a generování kódu Sparku ve verzi Public Preview.
- Operace s vlastním kódem jsou v současné době podporovány pouze pro datové rámce pandas.
- Zobrazení Wrangleru dat funguje nejlépe na velkých monitorech, i když různé části rozhraní lze minimalizovat nebo skrýt, aby vyhovovaly menším obrazovkám.
Spuštění služby Wrangler dat
Data Wrangler můžete spustit přímo z poznámkového bloku Microsoft Fabric a prozkoumat a transformovat libovolný datový rámec pandas nebo Spark. Přehled použití služby Data Wrangler s datovými rámci Sparku najdete v tomto doprovodném článku. Následující fragment kódu ukazuje, jak číst ukázková data do datového rámce pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Na kartě Data na pásu karet poznámkového bloku použijte rozevírací nabídku Data Wrangler k procházení aktivních datových rámců, které jsou k dispozici pro úpravy. Vyberte ten, který chcete otevřít ve službě Data Wrangler.
Tip
V době, kdy je jádro poznámkového bloku zaneprázdněné, nelze otevřít rozhraní Wrangler dat. Spuštěná buňka musí dokončit své spuštění, aby bylo možné spustit službu Data Wrangler.
Výběr vlastních ukázek
Data Wrangler umožňuje otevřít vlastní ukázku libovolného aktivního datového rámce výběrem možnosti Zvolit vlastní ukázku z rozevíracího seznamu. Tím se spustí automaticky otevírané okno s možnostmi, které určují velikost požadovaného vzorku (počet řádků) a metodu vzorkování (první záznamy, poslední záznamy nebo náhodnou sadu).
Zobrazení souhrnných statistik
Když se data Wrangler načte, zobrazí se na panelu Souhrn popisný přehled zvoleného datového rámce. Tento přehled obsahuje informace o dimenzích datového rámce, chybějících hodnotách a dalších. Výběrem libovolného sloupce v mřížce transformace dat se zobrazí výzva k aktualizaci panelu Souhrn a zobrazení popisných statistik o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.
Tip
Statistiky a vizuály specifické pro sloupce (jak na panelu Souhrn, tak v záhlaví sloupců) závisí na datovém typu sloupce. Například binned histogram číselného sloupce se zobrazí v záhlaví sloupce pouze v případě, že je sloupec přetypován jako číselný typ. Pomocí panelu Operations můžete přetypovat typy sloupců pro nejpřesnější zobrazení.
Operace čištění dat procházením
Prohledávatelný seznam kroků čištění dat najdete na panelu Operations Panel. (V nabídce záhlaví každého sloupce je k dispozici menší výběr stejných operací.) Výběrem kroku čištění dat na panelu Operations (Operations) se zobrazí výzva k zadání cílového sloupce nebo sloupců spolu s potřebnými parametry pro dokončení kroku. Například výzva ke škálování sloupce číselně vyžaduje nový rozsah hodnot.
Zobrazení náhledu a použití operací
Výsledky vybrané operace se automaticky zobrazí v mřížce zobrazení Transformace dat a odpovídající kód se automaticky zobrazí na panelu pod mřížkou. Náhled kódu potvrdíte tak, že na libovolném místě vyberete Použít. Pokud se chcete zbavit náhledového kódu a vyzkoušet novou operaci, vyberte Zahodit.
Po použití operace se zobrazí mřížka a souhrnná statistika služby Data Wrangler, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací umístěných na panelu Kroky čištění.
Tip
Poslední použitý krok můžete kdykoli vrátit zpět ikonou koše vedle něj, která se zobrazí, když najedete kurzorem na tento krok na panelu Kroky čištění.
Následující tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje:
Operace | Popis |
---|---|
Sort | Seřazení sloupce ve vzestupném nebo sestupném pořadí |
Filtr | Filtrování řádků na základě jedné nebo více podmínek |
Kódování s jedním horkým kódováním | Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek. |
Kódování s jedním horkým kódem s oddělovačem | Rozdělení a kódování kategorických dat s jedním horkým kódováním pomocí oddělovače |
Změna typu sloupce | Změna datového typu sloupce |
Drop column | Odstranění jednoho nebo více sloupců |
Vybrat sloupec | Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte. |
Přejmenovat sloupec | Přejmenování sloupce |
Vyřazení chybějících hodnot | Odebrání řádků s chybějícími hodnotami |
Přetažení duplicitních řádků | Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích |
Vyplnění chybějících hodnot | Nahrazení buněk chybějícími hodnotami novou hodnotou |
Vyhledání a nahrazení | Nahrazení buněk přesným vzorem porovnávání |
Seskupení podle sloupce a agregace | Seskupení podle hodnot sloupců a agregovaných výsledků |
Pruh prázdných znaků | Odebrání prázdných znaků od začátku a konce textu |
Rozdělení textu | Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače |
Převod textu na malá písmena | Převod textu na malá písmena |
Převod textu na velká písmena | Převod textu na VELKÁ PÍSMENA |
Škálování minimálních a maximálních hodnot | Škálování číselného sloupce mezi minimální a maximální hodnotou |
Dynamické doplňování | Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce |
Ukládání a export kódu
Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. Export kódu zavře službu Data Wrangler a přidá novou funkci do buňky kódu v poznámkovém bloku. Vyčištěný datový rámec si také můžete stáhnout jako soubor CSV.
Tip
Kód vygenerovaný objektem Data Wrangler se nepoužije, dokud ručně nespustíte novou buňku a nepřepíše původní datový rámec.
Související obsah
- Pokud si chcete vyzkoušet rozhraní Data Wrangler v datových rámcích Sparku, přečtěte si tento doprovodný článek.
- Pokud chcete vyzkoušet transformaci dat ve VS Code, přečtěte si téma Transformace dat ve VS Code.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro