Az adat-előkészítés felgyorsítása a Data Wranglerrel a Microsoft Fabricben

A Data Wrangler egy jegyzetfüzet-alapú eszköz, amely modern felületet biztosít a felhasználóknak a feltáró adatelemzéshez. A funkció egyesíti a rácsszerű adatmegjelenítést a dinamikus összefoglaló statisztikákkal, a beépített vizualizációkkal és a gyakori adattisztítási műveletek tárával. Minden műveletet kattintással alkalmazhat, valós időben frissítheti az adatmegjelenítést, és kódokat hozhat létre a Pandasban vagy a PySparkban, amelyeket újrahasználható függvényként menthet vissza a jegyzetfüzetbe. Ez a cikk a pandas DataFrame-ek feltárásával és átalakításával foglalkozik. A Data Wrangler Spark DataFrame-eken való használatára vonatkozó utasításokat itt találja.

Előfeltételek

  • Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.

  • Jelentkezzen be a Microsoft Fabricbe.

  • A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Korlátozások

  • A Data Wrangler jelenleg általánosan támogatja a pandas-kódgenerálást és a Spark-kódgenerálást a nyilvános előzetes verzióban.
  • Az egyéni kódműveletek jelenleg csak a pandas DataFrame-ekhez támogatottak.
  • A Data Wrangler kijelzője nagy monitorokon működik a legjobban, bár a felület különböző részei minimalizálhatók vagy elrejthetők a kisebb képernyők elhelyezéséhez.

A Data Wrangler indítása

A Data Wranglert közvetlenül egy Microsoft Fabric-jegyzetfüzetből indíthatja el a pandas vagy a Spark DataFrame felderítéséhez és átalakításához. A Data Wrangler Spark DataFrame-ekkel való használatának áttekintéséhez tekintse meg ezt a kiegészítő cikket. Az alábbi kódrészlet bemutatja, hogyan olvashatja be a mintaadatokat a pandas DataFrame-be:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

A jegyzetfüzet menüszalagjának "Adatok" lapja alatt a Data Wrangler legördülő menüben tallózhat a szerkesztésre elérhető aktív Adatkeretek között. Válassza ki azt, amelyiket meg szeretné nyitni a Data Wranglerben.

Tipp.

A Data Wrangler nem nyitható meg, amíg a jegyzetfüzet kernele foglalt. A végrehajtó cellának a Data Wrangler elindítása előtt be kell fejeznie a végrehajtást.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Egyéni minták kiválasztása

A Data Wrangler lehetővé teszi bármely aktív DataFrame egyéni mintájának megnyitását a legördülő menü "Egyéni minta kiválasztása" elemének kiválasztásával. Ezzel elindít egy előugró menüt a kívánt minta méretének (sorok számának) és a mintavételezési módszernek (első rekordok, utolsó rekordok vagy véletlenszerű készlet) megadására szolgáló beállításokkal.

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Összefoglaló statisztikák megtekintése

Amikor betölti a Data Wranglert, az Összegzés panelen megjeleníti a kiválasztott DataFrame leíró áttekintését. Ez az áttekintés információkat tartalmaz a DataFrame dimenzióiról, a hiányzó értékekről és egyebekről. Ha az Adat wrangler rács bármelyik oszlopát kijelöli, az Összegző panelt kéri az adott oszlop leíró statisztikáinak frissítésére és megjelenítésére. A fejlécben minden oszlopra vonatkozó gyors elemzések is elérhetők.

Tipp.

Az oszlopspecifikus statisztikák és vizualizációk (mind az Összegzés panelen, mind az oszlopfejlécekben) az oszlop adattípusától függnek. Egy numerikus oszlop rögzített hisztogramja például csak akkor jelenik meg az oszlopfejlécben, ha az oszlopot numerikus típusként öntötték. A legpontosabb megjelenítéshez használja az Operations panelt az oszloptípusok átdolgozásához.

Screenshot showing the Data Wrangler display grid and Summary panel.

Adattisztítási műveletek böngészése

Az adattisztítási lépések kereshető listája az Operatív panelen található. (Az egyes oszlopfejlécek menüjében ugyanannak a műveletnek kisebb választéka érhető el.) Az Operatív panelen az adattisztítási lépés kiválasztásával meg kell adnia egy céloszlopot vagy oszlopot, valamint minden szükséges paramétert a lépés végrehajtásához. Az oszlop numerikus skálázásának kéréséhez például új értéktartományra van szükség.

Screenshot showing the Data Wrangler Operations panel.

Műveletek előnézete és alkalmazása

A kijelölt művelet eredményei automatikusan megjelennek a Data Wrangler megjelenítési rácsában, és a megfelelő kód automatikusan megjelenik a rács alatti panelen. Az előnézeti kód véglegesítéséhez válassza az "Alkalmaz" lehetőséget mindkét helyen. Ha meg szeretne szabadulni az előzetes verziójú kódtól, és megpróbálni egy új műveletet, válassza az "Elvetés" lehetőséget.

Screenshot showing a Data Wrangler operation in progress.

A művelet alkalmazása után a Data Wrangler megjeleníti a rácsot és az összefoglaló statisztikákat, hogy tükrözze az eredményeket. A kód megjelenik a véglegesített műveletek futó listájában, amely a Tisztítási lépések panelen található.

Screenshot showing an applied Data Wrangler operation.

Tipp.

A legutóbb alkalmazott lépést bármikor visszavonhatja a mellette lévő kuka ikonnal, amely akkor jelenik meg, ha a kurzort a tisztítási lépések panelen az adott lépésre viszi.

Screenshot showing a Data Wrangler operation that can be undone.

Az alábbi táblázat összefoglalja a Data Wrangler által jelenleg támogatott műveleteket:

Művelet Leírás
Rendezés Oszlop rendezése növekvő vagy csökkenő sorrendben
Szűrő Sorok szűrése egy vagy több feltétel alapján
Gyakori elérésű kód Hozzon létre új oszlopokat egy meglévő oszlop minden egyedi értékéhez, jelezve, hogy az értékek előfordulása vagy hiánya soronként
Egyforrós kód elválasztójellel Kategorikus adatok felosztása és gyorskódolása elválasztó használatával
Oszloptípus módosítása Oszlop adattípusának módosítása
Oszlop elvetése Egy vagy több oszlop törlése
Oszlop kijelölése Válasszon egy vagy több megtartandó oszlopot, és törölje a többit
Oszlop átnevezése Oszlop átnevezése
Hiányzó értékek elvetése Hiányzó értékeket tartalmazó sorok eltávolítása
Ismétlődő sorok elvetése Az összes olyan sor elvetése, amely egy vagy több oszlopban duplikált értékekkel rendelkezik
Hiányzó értékek kitöltése Cellák lecserélése hiányzó értékekre új értékre
Keresés és csere Cellák cseréje pontos egyező mintára
Csoportosítás oszlop és összesítés szerint Csoportosítás oszlopértékek és összesített eredmények szerint
Sávok térköze Szóköz eltávolítása a szöveg elejéről és végéről
Szöveg felosztása Oszlop felosztása több oszlopra felhasználó által definiált elválasztó alapján
Szöveg átalakítása kisbetűssé Szöveg átalakítása kisbetűssé
Szöveg átalakítása nagybetűssé Szöveg konvertálása NAGYBETŰSRE Standard kiadás
Minimális/maximális értékek méretezése Numerikus oszlop skálázása minimális és maximális érték között
Villámkitöltés Új oszlop automatikus létrehozása meglévő oszlopból származó példák alapján

Kód mentése és exportálása

A Data Wrangler megjelenítési rács feletti eszköztár a létrehozott kód mentési lehetőségeit tartalmazza. A kódot átmásolhatja a vágólapra, vagy exportálhatja a jegyzetfüzetbe függvényként. A kód exportálása bezárja a Data Wranglert, és hozzáadja az új függvényt a jegyzetfüzet kódcellájához. A megtisztított DataFrame-et csv-fájlként is letöltheti.

Tipp.

A Data Wrangler által létrehozott kód csak akkor lesz alkalmazva, ha manuálisan futtatja az új cellát, és nem írja felül az eredeti DataFrame-et.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.