Az adat-előkészítés felgyorsítása a Data Wranglerrel a Microsoft Fabricben
A Data Wrangler egy jegyzetfüzet-alapú eszköz, amely modern felületet biztosít a felhasználóknak a feltáró adatelemzéshez. A funkció egyesíti a rácsszerű adatmegjelenítést a dinamikus összefoglaló statisztikákkal, a beépített vizualizációkkal és a gyakori adattisztítási műveletek tárával. Minden műveletet kattintással alkalmazhat, valós időben frissítheti az adatmegjelenítést, és kódokat hozhat létre a Pandasban vagy a PySparkban, amelyeket újrahasználható függvényként menthet vissza a jegyzetfüzetbe. Ez a cikk a pandas DataFrame-ek feltárásával és átalakításával foglalkozik. A Data Wrangler Spark DataFrame-eken való használatára vonatkozó utasításokat itt találja.
Előfeltételek
Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.
A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.
Korlátozások
- A Data Wrangler jelenleg általánosan támogatja a pandas-kódgenerálást és a Spark-kódgenerálást a nyilvános előzetes verzióban.
- Az egyéni kódműveletek jelenleg csak a pandas DataFrame-ekhez támogatottak.
- A Data Wrangler kijelzője nagy monitorokon működik a legjobban, bár a felület különböző részei minimalizálhatók vagy elrejthetők a kisebb képernyők elhelyezéséhez.
A Data Wrangler indítása
A Data Wranglert közvetlenül egy Microsoft Fabric-jegyzetfüzetből indíthatja el a pandas vagy a Spark DataFrame felderítéséhez és átalakításához. A Data Wrangler Spark DataFrame-ekkel való használatának áttekintéséhez tekintse meg ezt a kiegészítő cikket. Az alábbi kódrészlet bemutatja, hogyan olvashatja be a mintaadatokat a pandas DataFrame-be:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
A jegyzetfüzet menüszalagjának "Adatok" lapja alatt a Data Wrangler legördülő menüben tallózhat a szerkesztésre elérhető aktív Adatkeretek között. Válassza ki azt, amelyiket meg szeretné nyitni a Data Wranglerben.
Tipp.
A Data Wrangler nem nyitható meg, amíg a jegyzetfüzet kernele foglalt. A végrehajtó cellának a Data Wrangler elindítása előtt be kell fejeznie a végrehajtást.
Egyéni minták kiválasztása
A Data Wrangler lehetővé teszi bármely aktív DataFrame egyéni mintájának megnyitását a legördülő menü "Egyéni minta kiválasztása" elemének kiválasztásával. Ezzel elindít egy előugró menüt a kívánt minta méretének (sorok számának) és a mintavételezési módszernek (első rekordok, utolsó rekordok vagy véletlenszerű készlet) megadására szolgáló beállításokkal.
Összefoglaló statisztikák megtekintése
Amikor betölti a Data Wranglert, az Összegzés panelen megjeleníti a kiválasztott DataFrame leíró áttekintését. Ez az áttekintés információkat tartalmaz a DataFrame dimenzióiról, a hiányzó értékekről és egyebekről. Ha az Adat wrangler rács bármelyik oszlopát kijelöli, az Összegző panelt kéri az adott oszlop leíró statisztikáinak frissítésére és megjelenítésére. A fejlécben minden oszlopra vonatkozó gyors elemzések is elérhetők.
Tipp.
Az oszlopspecifikus statisztikák és vizualizációk (mind az Összegzés panelen, mind az oszlopfejlécekben) az oszlop adattípusától függnek. Egy numerikus oszlop rögzített hisztogramja például csak akkor jelenik meg az oszlopfejlécben, ha az oszlopot numerikus típusként öntötték. A legpontosabb megjelenítéshez használja az Operations panelt az oszloptípusok átdolgozásához.
Adattisztítási műveletek böngészése
Az adattisztítási lépések kereshető listája az Operatív panelen található. (Az egyes oszlopfejlécek menüjében ugyanannak a műveletnek kisebb választéka érhető el.) Az Operatív panelen az adattisztítási lépés kiválasztásával meg kell adnia egy céloszlopot vagy oszlopot, valamint minden szükséges paramétert a lépés végrehajtásához. Az oszlop numerikus skálázásának kéréséhez például új értéktartományra van szükség.
Műveletek előnézete és alkalmazása
A kijelölt művelet eredményei automatikusan megjelennek a Data Wrangler megjelenítési rácsában, és a megfelelő kód automatikusan megjelenik a rács alatti panelen. Az előnézeti kód véglegesítéséhez válassza az "Alkalmaz" lehetőséget mindkét helyen. Ha meg szeretne szabadulni az előzetes verziójú kódtól, és megpróbálni egy új műveletet, válassza az "Elvetés" lehetőséget.
A művelet alkalmazása után a Data Wrangler megjeleníti a rácsot és az összefoglaló statisztikákat, hogy tükrözze az eredményeket. A kód megjelenik a véglegesített műveletek futó listájában, amely a Tisztítási lépések panelen található.
Tipp.
A legutóbb alkalmazott lépést bármikor visszavonhatja a mellette lévő kuka ikonnal, amely akkor jelenik meg, ha a kurzort a tisztítási lépések panelen az adott lépésre viszi.
Az alábbi táblázat összefoglalja a Data Wrangler által jelenleg támogatott műveleteket:
Művelet | Leírás |
---|---|
Rendezés | Oszlop rendezése növekvő vagy csökkenő sorrendben |
Szűrő | Sorok szűrése egy vagy több feltétel alapján |
Gyakori elérésű kód | Hozzon létre új oszlopokat egy meglévő oszlop minden egyedi értékéhez, jelezve, hogy az értékek előfordulása vagy hiánya soronként |
Egyforrós kód elválasztójellel | Kategorikus adatok felosztása és gyorskódolása elválasztó használatával |
Oszloptípus módosítása | Oszlop adattípusának módosítása |
Oszlop elvetése | Egy vagy több oszlop törlése |
Oszlop kijelölése | Válasszon egy vagy több megtartandó oszlopot, és törölje a többit |
Oszlop átnevezése | Oszlop átnevezése |
Hiányzó értékek elvetése | Hiányzó értékeket tartalmazó sorok eltávolítása |
Ismétlődő sorok elvetése | Az összes olyan sor elvetése, amely egy vagy több oszlopban duplikált értékekkel rendelkezik |
Hiányzó értékek kitöltése | Cellák lecserélése hiányzó értékekre új értékre |
Keresés és csere | Cellák cseréje pontos egyező mintára |
Csoportosítás oszlop és összesítés szerint | Csoportosítás oszlopértékek és összesített eredmények szerint |
Sávok térköze | Szóköz eltávolítása a szöveg elejéről és végéről |
Szöveg felosztása | Oszlop felosztása több oszlopra felhasználó által definiált elválasztó alapján |
Szöveg átalakítása kisbetűssé | Szöveg átalakítása kisbetűssé |
Szöveg átalakítása nagybetűssé | Szöveg konvertálása NAGYBETŰSRE Standard kiadás |
Minimális/maximális értékek méretezése | Numerikus oszlop skálázása minimális és maximális érték között |
Villámkitöltés | Új oszlop automatikus létrehozása meglévő oszlopból származó példák alapján |
Kód mentése és exportálása
A Data Wrangler megjelenítési rács feletti eszköztár a létrehozott kód mentési lehetőségeit tartalmazza. A kódot átmásolhatja a vágólapra, vagy exportálhatja a jegyzetfüzetbe függvényként. A kód exportálása bezárja a Data Wranglert, és hozzáadja az új függvényt a jegyzetfüzet kódcellájához. A megtisztított DataFrame-et csv-fájlként is letöltheti.
Tipp.
A Data Wrangler által létrehozott kód csak akkor lesz alkalmazva, ha manuálisan futtatja az új cellát, és nem írja felül az eredeti DataFrame-et.
Kapcsolódó tartalom
- A Data Wrangler spark dataframe-eken való kipróbálásához tekintse meg ezt a társcikket.
- A Data Wrangler a VS Code-ban való kipróbálásához lásd : Data Wrangler a VS Code-ban.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: