Používání transformace dat v datových rámcích Sparku (Preview)

Článek
11/15/2023

Data Wrangler, nástroj založený na poznámkových blocích pro průzkumnou analýzu dat, teď podporuje datové rámce Sparku i pandas DataFrames a kromě kódu Pythonu generuje kód PySpark. Obecný přehled transformace dat, který popisuje, jak prozkoumat a transformovat datové rámce pandas, najdete v hlavním kurzu. Následující kurz ukazuje, jak pomocí služby Data Wrangler prozkoumat a transformovat datové rámce Sparku.

Důležité

Tato funkce je ve verzi Preview.

Požadavky

Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače prostředí na levé straně domovské stránky přepněte na prostředí Synapse Datová Věda.

Spuštění transformace dat pomocí datového rámce Spark

Uživatelé můžou otevřít datové rámce Sparku v objektu Data Wrangler přímo z poznámkového bloku Microsoft Fabric, a to tak, že přejdou na stejnou rozevírací nabídku, ve které se zobrazí datové rámce pandas. V rozevíracím seznamu pod seznamem aktivních proměnných pandas se zobrazí seznam aktivních datových rámců Sparku.

Další fragment kódu vytvoří datový rámec Spark se stejnými ukázkovými daty použitými v kurzu pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

Na kartě Data na pásu karet poznámkového bloku použijte rozevírací nabídku Data Wrangler k procházení aktivních datových rámců, které jsou k dispozici pro úpravy. Vyberte ten, který chcete otevřít ve službě Data Wrangler.

Tip

V době, kdy je jádro poznámkového bloku zaneprázdněné, nelze otevřít rozhraní Wrangler dat. Spuštěná buňka musí dokončit své spuštění, aby bylo možné spustit službu Data Wrangler.

Výběr vlastních ukázek

Data Wrangler automaticky převede datové rámce Sparku na ukázky pandas z důvodů výkonu. Veškerý kód vygenerovaný nástrojem se ale nakonec přeloží do PySpark při exportu zpět do poznámkového bloku. Stejně jako u jakéhokoli datového rámce pandas můžete výchozí ukázku přizpůsobit tak, že v rozevírací nabídce Data Wrangler vyberete Možnost Zvolit vlastní ukázku. Tím se spustí automaticky otevírané okno s možnostmi, které určují velikost požadovaného vzorku (počet řádků) a metodu vzorkování (první záznamy, poslední záznamy nebo náhodnou sadu).

Zobrazení souhrnných statistik

Když se data Wrangler načte, informační banner nad mřížkou náhledu vám připomene, že datové rámce Sparku se dočasně převedou na ukázky pandas, ale veškerý vygenerovaný kód se nakonec převede na PySpark. Použití služby Data Wrangler v datových rámcích Sparku se jinak neliší od použití v datových rámcích pandas. Popisný přehled na panelu Souhrn zobrazuje informace o rozměrech vzorku, chybějících hodnotách a dalších. Výběrem libovolného sloupce v mřížce transformace dat se zobrazí výzva k aktualizaci panelu Souhrn a zobrazení popisných statistik o daném sloupci. Rychlé přehledy o každém sloupci jsou k dispozici také v záhlaví.

Tip

Statistiky a vizuály specifické pro sloupce (jak na panelu Souhrn, tak v záhlaví sloupců) závisí na datovém typu sloupce. Například binned histogram číselného sloupce se zobrazí v záhlaví sloupce pouze v případě, že je sloupec přetypován jako číselný typ. Pomocí panelu Operations můžete přetypovat typy sloupců pro nejpřesnější zobrazení.

Operace čištění dat procházením

Prohledávatelný seznam kroků čištění dat najdete na panelu Operations Panel. (Menší výběr stejných operací je také k dispozici v místní nabídce každého sloupce.) Výběrem kroku čištění dat na panelu Operations (Operations) se zobrazí výzva k zadání cílového sloupce nebo sloupců spolu s potřebnými parametry pro dokončení kroku. Například výzva ke škálování sloupce číselně vyžaduje nový rozsah hodnot.

Zobrazení náhledu a použití operací

Výsledky vybrané operace se automaticky zobrazí v mřížce zobrazení Transformace dat a odpovídající kód se automaticky zobrazí na panelu pod mřížkou. Náhled kódu potvrdíte tak, že na libovolném místě vyberete Použít. Pokud se chcete zbavit náhledového kódu a vyzkoušet novou operaci, vyberte Zahodit.

Po použití operace se zobrazí mřížka a souhrnná statistika služby Data Wrangler, aby odrážely výsledky. Kód se zobrazí v seznamu spuštěných potvrzených operací umístěných na panelu Kroky čištění.

Tip

Poslední použitý krok můžete kdykoli vrátit zpět ikonou koše vedle něj, která se zobrazí, když najedete kurzorem na tento krok na panelu Kroky čištění.

Následující tabulka shrnuje operace, které služba Data Wrangler aktuálně podporuje pro datové rámce Spark:

Operace	Popis
Sort	Seřazení sloupce ve vzestupném nebo sestupném pořadí
Filtr	Filtrování řádků na základě jedné nebo více podmínek
Kódování s jedním horkým kódováním	Vytvořte nové sloupce pro každou jedinečnou hodnotu v existujícím sloupci, což označuje přítomnost nebo absenci těchto hodnot na řádek.
Kódování s jedním horkým kódem s oddělovačem	Rozdělení a kódování kategorických dat s jedním horkým kódováním pomocí oddělovače
Změna typu sloupce	Změna datového typu sloupce
Drop column	Odstranění jednoho nebo více sloupců
Vybrat sloupec	Zvolte jeden nebo více sloupců, které chcete zachovat, a zbytek odstraňte.
Přejmenovat sloupec	Přejmenování sloupce
Vyřazení chybějících hodnot	Odebrání řádků s chybějícími hodnotami
Přetažení duplicitních řádků	Odstranění všech řádků s duplicitními hodnotami v jednom nebo více sloupcích
Vyplnění chybějících hodnot	Nahrazení buněk chybějícími hodnotami novou hodnotou
Vyhledání a nahrazení	Nahrazení buněk přesným vzorem porovnávání
Seskupení podle sloupce a agregace	Seskupení podle hodnot sloupců a agregovaných výsledků
Pruh prázdných znaků	Odebrání prázdných znaků od začátku a konce textu
Rozdělení textu	Rozdělení sloupce na několik sloupců na základě uživatelem definovaného oddělovače
Převod textu na malá písmena	Převod textu na malá písmena
Převod textu na velká písmena	Převod textu na VELKÁ PÍSMENA
Škálování minimálních a maximálních hodnot	Škálování číselného sloupce mezi minimální a maximální hodnotou
Dynamické doplňování	Automatické vytvoření nového sloupce na základě příkladů odvozených z existujícího sloupce

Ukládání a export kódu

Panel nástrojů nad mřížkou zobrazení Transformace dat poskytuje možnosti pro uložení vygenerovaného kódu. Kód můžete zkopírovat do schránky nebo ho exportovat do poznámkového bloku jako funkci. U datových rámců Sparku se veškerý kód vygenerovaný v ukázce pandas před návratem do poznámkového bloku přeloží do PySparku. Před zavřením nástroje Data Wrangler zobrazí náhled přeloženého kódu PySpark a poskytne možnost exportu zprostředkujícího kódu pandas.

Tip

Kód vygenerovaný objektem Data Wrangler se nepoužije, dokud ručně nespustíte novou buňku a nepřepíše původní datový rámec.

Pokud chcete získat přehled služby Data Wrangler, přečtěte si tento doprovodný článek.
Pokud chcete vyzkoušet transformaci dat ve VS Code, přečtěte si téma Transformace dat ve VS Code.

Sdílet prostřednictvím

Používání transformace dat v datových rámcích Sparku (Preview)

Požadavky

Spuštění transformace dat pomocí datového rámce Spark

Výběr vlastních ukázek

Zobrazení souhrnných statistik

Operace čištění dat procházením

Zobrazení náhledu a použití operací

Ukládání a export kódu

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Používání transformace dat v datových rámcích Sparku (Preview)

Požadavky

Spuštění transformace dat pomocí datového rámce Spark

Výběr vlastních ukázek

Zobrazení souhrnných statistik

Operace čištění dat procházením

Zobrazení náhledu a použití operací

Ukládání a export kódu

Související obsah

Váš názor

Váš názor

Další materiály