Az adat-előkészítés felgyorsítása a Data Wranglerrel a Microsoft Fabricben

Cikk
2024. 08. 14.

A Data Wrangler eszköz egy jegyzetfüzet-alapú erőforrás, amely magával ragadó felületet biztosít a feltáró adatelemzéshez. A rácsszerű adatmegjelenítést dinamikus összefoglaló statisztikákkal, beépített vizualizációkkal és gyakori adattisztítási műveletek kódtárával kombinálja. Az egyes műveleteket néhány lépéssel alkalmazhatja. Az adatmegjelenítést valós időben frissítheti, és olyan kódot hozhat létre a Pandasban vagy a PySparkban, amelyet újrahasználható függvényként menthet vissza a jegyzetfüzetbe. Ez a cikk a pandas DataFrame-ek feltárásával és átalakításával foglalkozik. A Data Wrangler Spark DataFrame-en való használatával kapcsolatos további információkért látogasson el erre az erőforrásra.

Előfeltételek

Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.
Jelentkezzen be a Microsoft Fabricbe.
A kezdőlap bal alsó részén található élménykapcsolóval válthat Fabricre.

Korlátozások

Az egyéni kódműveletek jelenleg csak a pandas DataFrame-ekhez támogatottak.
A Data Wrangler kijelző nagy monitorokon működik a legjobban, bár a kisebb képernyők elhelyezéséhez minimalizálhatja vagy elrejtheti a felület különböző részeit.

A Data Wrangler indítása

A Data Wranglert közvetlenül egy Microsoft Fabric-jegyzetfüzetből indíthatja el a pandas vagy a Spark DataFrame felderítéséhez és átalakításához. A Data Wrangler Spark DataFrame-ekkel való használatával kapcsolatos további információkért tekintse meg ezt a kiegészítő cikket. Ez a kódrészlet bemutatja, hogyan olvashatja be a mintaadatokat a pandas DataFrame-be:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

A jegyzetfüzet menüszalagjának Kezdőlap lapján a Data Wrangler legördülő menüben tallózhat a szerkesztésre elérhető aktív Adatkeretek között. Válassza ki azt, amelyet meg szeretne nyitni a Data Wranglerben.

Tipp

A Data Wrangler nem nyitható meg, amíg a jegyzetfüzet kernele foglalt. A végrehajtó cellának be kell fejeznie a végrehajtást, mielőtt a Data Wrangler elindulhat, ahogy az a képernyőképen látható:

Egyéni minták kiválasztása

Ha bármilyen aktív DataFrame-minta egyéni mintáját szeretné megnyitni a Data Wranglerrel, válassza az "Egyéni minta kiválasztása" lehetőséget a legördülő menüből, ahogyan az a képernyőképen látható:

Ekkor megjelenik egy előugró ablak, amelyen megadhatja a kívánt minta méretét (sorok száma) és a mintavételezési módszert (első rekordok, utolsó rekordok vagy véletlenszerű készlet). A DataFrame első 5000 sora szolgál az alapértelmezett mintaméretként, ahogyan az a képernyőképen látható:

Összefoglaló statisztikák megtekintése

Amikor a Data Wrangler betöltődik, az "Összefoglalás" panelen megjeleníti a kiválasztott DataFrame leíró áttekintését. Ez az áttekintés információkat tartalmaz a DataFrame-dimenziókról, a hiányzó értékekről és egyebekről. A Data Wrangler rács bármelyik oszlopának kijelölése arra kéri az "Összegzés" panelt, hogy frissítse és megjelenítse az adott oszlop leíró statisztikáit. A fejlécben minden oszlopra vonatkozó gyors elemzések is elérhetők.

Tipp

Az oszlopspecifikus statisztikák és vizualizációk (mind az "Összegzés" panelen, mind az oszlopfejlécekben) az oszlop adattípusától függnek. Egy numerikus oszlop rögzített hisztogramja például csak akkor jelenik meg az oszlopfejlécben, ha az oszlop numerikus típusként jelenik meg, ahogyan az a képernyőképen látható:

Adattisztítási műveletek böngészése

Az adattisztítási lépések kereshető listája az "Operations" (Műveletek) panelen található. Az "Operations" (Műveletek) panelen az adattisztítási lépés kiválasztása arra kéri, hogy adjon meg egy céloszlopot vagy oszlopot, valamint minden szükséges paramétert a lépés végrehajtásához. Az oszlop numerikus skálázásának kéréséhez például új értéktartományra van szükség, ahogyan az a képernyőképen látható:

Tipp

Az egyes oszlopfejlécek menüjéből kisebb műveletek közül választhat, ahogyan az a képernyőképen látható:

Műveletek előnézete és alkalmazása

A Data Wrangler megjelenítési rácsa automatikusan megtekinti egy kiválasztott művelet eredményeit, és a megfelelő kód automatikusan megjelenik a rács alatti panelen. Az előnézeti kód véglegesítéséhez válassza az "Alkalmaz" lehetőséget mindkét helyen. Az előnézeti kód törléséhez és egy új művelet kipróbálásához válassza az "Elvetés" lehetőséget a képernyőképen látható módon:

A művelet alkalmazása után a Data Wrangler megjeleníti a rácsot és az összefoglaló statisztikákat, hogy tükrözze az eredményeket. A kód megjelenik a véglegesített műveletek futó listájában, amely a "Tisztítási lépések" panelen található, az alábbi képernyőképen látható módon:

Tipp

A legutóbb alkalmazott lépést bármikor visszavonhatja. A "Tisztítási lépések" panelen egy kuka ikon jelenik meg, ha a kurzort a legutóbb alkalmazott lépés fölé viszi, ahogyan az a képernyőképen látható:

Ez a táblázat a Data Wrangler által jelenleg támogatott műveleteket foglalja össze:

Művelet	Leírás
Rendezés	Oszlop rendezése növekvő vagy csökkenő sorrendben
Szűrő	Sorok szűrése egy vagy több feltétel alapján
Gyakori elérésű kód	Hozzon létre új oszlopokat egy meglévő oszlop minden egyedi értékéhez, jelezve, hogy az értékek előfordulása vagy hiánya soronként
Egyforrós kód elválasztójellel	Kategorikus adatok felosztása és gyorskódolása elválasztó használatával
Oszloptípus módosítása	Oszlop adattípusának módosítása
Oszlop elvetése	Egy vagy több oszlop törlése
Oszlop kijelölése	Válasszon egy vagy több megtartandó oszlopot, és törölje a többit
Oszlop átnevezése	Oszlop átnevezése
Hiányzó értékek elvetése	Hiányzó értékeket tartalmazó sorok eltávolítása
Ismétlődő sorok elvetése	Az összes olyan sor elvetése, amely egy vagy több oszlopban duplikált értékekkel rendelkezik
Hiányzó értékek kitöltése	Cellák lecserélése hiányzó értékekre új értékre
Keresés és csere	Cellák cseréje pontos egyező mintára
Csoportosítás oszlop és összesítés szerint	Csoportosítás oszlopértékek és összesített eredmények szerint
Sávok térköze	Szóköz eltávolítása a szöveg elejéről és végéről
Szöveg felosztása	Oszlop felosztása több oszlopra felhasználó által definiált elválasztó alapján
Szöveg átalakítása kisbetűssé	Szöveg átalakítása kisbetűssé
Szöveg átalakítása nagybetűssé	Szöveg átalakítása NAGYBETŰssé
Minimális/maximális értékek méretezése	Numerikus oszlop skálázása minimális és maximális érték között
Villámkitöltés	Új oszlop automatikus létrehozása meglévő oszlopból származó példák alapján

A kijelző módosítása

Bármikor testre szabhatja a felületet a Data Wrangler megjelenítési rács fölött található eszköztár "Nézetek" lapjával. Ez elrejtheti vagy megjelenítheti a különböző paneleket a beállítások és a képernyőméret alapján, ahogyan az a képernyőképen látható:

Kód mentése és exportálása

A Data Wrangler megjelenítési rács feletti eszköztár a létrehozott kód mentési lehetőségeit tartalmazza. A kódot átmásolhatja a vágólapra, vagy exportálhatja a jegyzetfüzetbe függvényként. A kód exportálása bezárja a Data Wranglert, és hozzáadja az új függvényt a jegyzetfüzet kódcellájához. A megtisztított DataFrame-et csv-fájlként is letöltheti.

Tipp

A Data Wrangler olyan kódot hoz létre, amely csak akkor lesz alkalmazva, ha manuálisan futtatja az új cellát, és nem írja felül az eredeti DataFrame-et, ahogyan az a képernyőképen látható:

Ezután futtathatja az exportált kódot az alábbi képernyőképen látható módon:

A Data Wrangler spark dataframe-eken való kipróbálásához tekintse meg ezt a társcikket
A Data Wrangler élőben közvetített demójáért tekintse meg ezt a videót a Guy in a Cube-ban lévő barátainktól.
A Data Wrangler kipróbálásához a Visual Studio Code-ban nyissa meg a Data Wranglert a VS Code-ban
Kihagytunk egy szükséges funkciót? Mondja el nekünk! Javaslat a Fabric Ideas fórumra

The future is yours

Megosztás a következőn keresztül:

Az adat-előkészítés felgyorsítása a Data Wranglerrel a Microsoft Fabricben

Előfeltételek

Korlátozások

A Data Wrangler indítása

Egyéni minták kiválasztása

Összefoglaló statisztikák megtekintése

Adattisztítási műveletek böngészése

Műveletek előnézete és alkalmazása

A kijelző módosítása

Kód mentése és exportálása

Visszajelzés

További források

The future is yours

Megosztás a következőn keresztül:

Az adat-előkészítés felgyorsítása a Data Wranglerrel a Microsoft Fabricben

Előfeltételek

Korlátozások

A Data Wrangler indítása

Egyéni minták kiválasztása

Összefoglaló statisztikák megtekintése

Adattisztítási műveletek böngészése

Műveletek előnézete és alkalmazása

A kijelző módosítása

Kód mentése és exportálása

Kapcsolódó tartalom

Visszajelzés

További források