Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Data Wrangler je nástroj založený na poznámkových blocích, který poskytuje imerzivní rozhraní pro průzkumnou analýzu dat. Kombinuje zobrazení dat podobných mřížce s dynamickými souhrnnými statistikami, integrovanými vizualizacemi a knihovnou běžných operací čištění dat. Každou operaci můžete použít pomocí několika kroků, aktualizovat zobrazení dat v reálném čase a vygenerovat kód v knihovně pandas nebo PySpark, který můžete uložit zpět do poznámkového bloku jako opakovaně použitelnou funkci. Tento článek se zaměřuje na zkoumání a transformaci datových rámců pandas. Pro více informací o používání služby Data Wrangler se Spark DataFrames najdete v tomto zdroji.
Požadavky
Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače zkušeností v levém dolním rohu domovské stránky přepněte na Fabric.
Omezení
- Operace s vlastním kódem jsou v současné době podporovány pouze pro datové rámce pandas.
- Zobrazení Wrangler dat funguje nejlépe na velkých monitorech. Můžete ale minimalizovat nebo skrýt různé části rozhraní tak, aby vyhovovaly menším obrazovkám.
Spuštění aplikace Data Wrangler
Spusťte aplikaci Data Wrangler přímo z poznámkového bloku Microsoft Fabric a prozkoumejte a transformujte libovolný datový rámec pandas nebo Spark. Další informace o používání služby Data Wrangler s datovými rámci Spark najdete v tomto doprovodném článku. Tento fragment kódu ukazuje, jak číst ukázková data do datového rámce pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Na kartě Domů na pásu karet notebooku použijte rozevírací nabídku Data Wrangler k procházení aktivních datových rámců dostupných k úpravám. Vyberte ten, který chcete otevřít ve službě Data Wrangler.
Tip
Data Wrangler nejde otevřít, když je jádro poznámkového bloku zaneprázdněné. Provádějící se buňka se musí dokončit před spuštěním služby Data Wrangler, jak je znázorněno na tomto snímku obrazovky:
Výběr vlastních ukázek
Pokud chcete otevřít vlastní ukázku libovolného aktivního datového rámce s objektem Data Wrangler, vyberte v rozevíracím seznamu možnost Zvolit vlastní ukázku, jak je znázorněno na tomto snímku obrazovky:
Tato akce otevře dialogové okno s možnostmi určení velikosti požadovaného vzorku (počtu řádků) a metody vzorkování (první záznamy, poslední záznamy nebo náhodná sada). Prvních 5 000 řádků datového rámce slouží jako výchozí velikost vzorku, jak je znázorněno na tomto snímku obrazovky:
Zobrazení souhrnných statistik
Když se Data Wrangler načte, zobrazí se na panelu "Souhrn" popisný přehled zvoleného datového rámce. Tento přehled obsahuje informace o dimenzích datového rámce, chybějících hodnotách a dalších. Když vyberete libovolný sloupec v mřížce Data Wrangler, panel Souhrn se aktualizuje pro zobrazení popisných statistik o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.
Tip
Statistiky a vizuály specifické pro sloupce (jak na panelu Souhrn, tak v záhlaví sloupců) závisí na datovém typu sloupce. Například histogram s intervaly číselného sloupce se zobrazí v záhlaví sloupce pouze v případě, že je sloupec přetypován jako číselný typ, jak je vidět na tomto snímku obrazovky:
Procházení operacemi čištění dat
Na panelu Operace je k dispozici prohledávatelný seznam operací čištění dat. Když na panelu Operace vyberete operaci čištění dat, zobrazí se výzva k zadání cílového sloupce nebo sloupců spolu s potřebnými parametry pro dokončení operace. Například výzva k číselnému škálování sloupce vyžaduje nový rozsah hodnot, jak je znázorněno na tomto snímku obrazovky:
Tip
V nabídce záhlaví každého sloupce můžete použít menší výběr operací, jak je znázorněno na tomto snímku obrazovky:
Náhled a aplikace operací
Mřížka zobrazení Data Wrangler automaticky zobrazí náhled výsledků vybrané operace a odpovídající kód se automaticky objeví na panelu pod mřížkou. Náhled kódu potvrdíte tak, že v libovolném umístění vyberete Použít. Pokud chcete odstranit náhled kódu a vyzkoušet novou operaci, vyberte Zahodit, jak je znázorněno na tomto snímku obrazovky:
Po použití operace se zobrazovací mřížka nástroje Data Wrangler a souhrnné statistiky aktualizují tak, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací na panelu "Kroky čištění", jak je znázorněno na tomto snímku obrazovky:
Tip
Poslední použitý krok můžete kdykoli vrátit zpět. Na panelu "Kroky čištění" se ikona koše zobrazí, když najedete kurzorem na naposledy použitý krok, jak je znázorněno na tomto snímku obrazovky:
Tato tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje:
| Operace | Popis |
|---|---|
| Sort | Seřazení sloupce ve vzestupném nebo sestupném pořadí |
| Filtr | Filtrování řádků na základě jedné nebo více podmínek |
| Jednoznačné kódování | Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek. |
| Binarizátor víceštítkový | Rozdělení dat pomocí oddělovače a vytvoření nových sloupců pro každou kategorii, označení 1, pokud má řádek danou kategorii a 0, pokud ne |
| Změna typu sloupce | Změna datového typu sloupce |
| Odstranit sloupec | Odstranění jednoho nebo více sloupců |
| Vybrat sloupec | Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte. |
| Přejmenovat sloupec | Přejmenování sloupce |
| Odstranit chybějící hodnoty | Odebrání řádků s chybějícími hodnotami |
| Odstranění duplicitních řádků | Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích |
| Vyplnění chybějících hodnot | Nahrazení buněk chybějícími hodnotami novou hodnotou |
| Vyhledání a nahrazení | Nahradit buňky vzorem, který přesně odpovídá |
| Seskupit podle sloupce a agregovat | Seskupení podle hodnot sloupců a agregovaných výsledků |
| Odstraňte prázdné znaky | Odebrání prázdných znaků od začátku a konce textu |
| Rozdělení textu | Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače |
| Převod textu na malá písmena | Převod textu na malá písmena |
| Převod textu na velká písmena | Převod textu na VELKÁ PÍSMENA |
| Škálování minimálních a maximálních hodnot | Škálování číselného sloupce mezi minimální a maximální hodnotou |
| Rychlé doplňování | Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce |
Úprava zobrazení
Rozhraní můžete kdykoli přizpůsobit pomocí karty "Views" na panelu nástrojů nad mřížkou zobrazení "Data Wrangler". Tato možnost může skrýt nebo zobrazit různá podokna podle předvoleb a velikosti obrazovky, jak je znázorněno na tomto snímku obrazovky:
Ukládání a export kódu
Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. Export kódu zavře službu Data Wrangler a přidá novou funkci do buňky kódu v poznámkovém bloku. Vyčištěný datový rámec si také můžete stáhnout jako soubor CSV.
Tip
Data Wrangler generuje kód, který se použije jenom při ručním spuštění nové buňky, a nepřepíše váš původní DataFrame, jak je znázorněno na tomto snímku obrazovky.
Pak můžete tento exportovaný kód spustit, jak je znázorněno na tomto snímku obrazovky:
Související obsah
- Pokud si chcete vyzkoušet Data Wrangler s datovými rámci Sparku, přečtěte si tento doprovodný článek.
- Prohlédněte si ukázku funkce Data Wrangler v rámci Fabric, kterou naleznete v tomto videu od našich přátel z Guy in a Cube.
- Pokud si chcete vyzkoušet Data Wrangler ve Visual Studio Code, přejděte do Data Wrangler ve VS Code.
- Chybí nám funkce, kterou potřebujete? Dejte nám vědět! Navrhněte to na fóru Fabric Ideas