Sådan fremskynder du dataforberedelse med Data Wrangler i Microsoft Fabric

2024-08-14

Data Wrangler-værktøjet er en notesbogbaseret ressource, der giver en fordybende grænseflade til udforskning af dataanalyser. Den kombinerer en gitterlignende datavisning med dynamisk oversigtsstatistik, indbyggede visualiseringer og et bibliotek med almindelige datarensningshandlinger. Du kan anvende hver handling med nogle få trin. Du kan opdatere datavisningen i realtid og generere kode i pandas eller PySpark, som du kan gemme tilbage til notesbogen som en funktion, der kan genbruges. I denne artikel fokuseres der på udforskning og transformation af pandas DataFrames. Du kan finde flere oplysninger om brug af Data Wrangler på Spark DataFrames ved at besøge denne ressource.

Forudsætninger

Få et Microsoft Fabric-abonnement. Du kan også tilmelde dig en gratis Prøveversion af Microsoft Fabric.
Log på Microsoft Fabric.
Brug oplevelsesskifteren nederst til venstre på startsiden til at skifte til Fabric.

Begrænsninger

Brugerdefinerede kodehandlinger understøttes i øjeblikket kun for pandas DataFrames.
Visningen Data Wrangler fungerer bedst på store skærme, selvom du kan minimere eller skjule forskellige dele af grænsefladen for at imødekomme mindre skærme.

Start data-Wrangler

Du kan starte Data Wrangler direkte fra en Microsoft Fabric-notesbog for at udforske og transformere alle pandas eller Spark DataFrame. Du kan finde flere oplysninger om brug af Data Wrangler med Spark DataFrames i denne medfølgende artikel. Dette kodestykke viser, hvordan du læser eksempeldata i en pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Brug rullelisteprompten Data Wrangler på båndet "Hjem" på notesbogbåndet til at gennemse de aktive DataFrames, der er tilgængelige til redigering. Vælg den, du vil åbne i Data Wrangler.

Tip

Data Wrangler kan ikke åbnes, mens notesbogkernen er optaget. En eksekveringscelle skal fuldføre udførelsen, før Data Wrangler kan starte, som vist på dette skærmbillede:

Valg af brugerdefinerede eksempler

Hvis du vil åbne et brugerdefineret eksempel på en hvilken som helst aktiv dataramme med Data Wrangler, skal du vælge "Vælg brugerdefineret eksempel" på rullelisten som vist på dette skærmbillede:

Dette starter et pop op-pop op med indstillinger til at angive størrelsen på det ønskede eksempel (antal rækker) og samplingsmetoden (første poster, sidste poster eller et tilfældigt sæt). De første 5.000 rækker i DataFrame fungerer som standardeksemplets størrelse, som vist på dette skærmbillede:

Visning af oversigtsstatistik

Når Data Wrangler indlæses, vises der en beskrivende oversigt over den valgte DataFrame i panelet "Oversigt". Denne oversigt indeholder oplysninger om DataFrame-dimensionerne, de manglende værdier og meget mere. Når du vælger en kolonne i gitteret Data Wrangler, bliver panelet "Oversigt" bedt om at opdatere og vise beskrivende statistikker om den pågældende kolonne. Hurtig indsigt om hver kolonne er også tilgængelig i overskriften.

Tip

Kolonnespecifikke statistikker og visualiseringer (både i panelet "Oversigt" og i kolonneoverskrifterne) afhænger af kolonnedatatypen. Der vises f.eks. kun et histogram i beholdere med en numerisk kolonne i kolonneoverskriften, hvis kolonnen er angivet som en numerisk type, som vist på dette skærmbillede:

Gennemsyn af handlinger til rensning af data

Du kan finde en søgbar liste over trin til datarensning i panelet "Handlinger". I panelet "Handlinger" bliver du bedt om at angive en eller flere destinationskolonner sammen med eventuelle nødvendige parametre for at fuldføre trinnet, når du vælger et trin til datarensning. Prompten om numerisk skalering af en kolonne kræver f.eks. et nyt interval af værdier, som vist på dette skærmbillede:

Tip

Du kan anvende et mindre udvalg af handlinger i menuen i hver kolonneoverskrift som vist på dette skærmbillede:

Visning og anvendelse af handlinger

Visningsgitteret Data Wrangler viser automatisk resultaterne af en valgt handling, og den tilsvarende kode vises automatisk i panelet under gitteret. Hvis du vil bekræfte den viste kode, skal du vælge "Anvend" begge sted. Hvis du vil slette den viste kode og prøve en ny handling, skal du vælge "Fjern" som vist på dette skærmbillede:

Når en handling er anvendt, opdateres data-Wrangler-visningsgitteret og oversigtsstatistikken for at afspejle resultaterne. Koden vises på den løbende liste over bekræftede handlinger, der er placeret i panelet "Rengøringstrin", som vist på dette skærmbillede:

Tip

Du kan altid fortryde det senest anvendte trin. I panelet "Rengøringstrin" vises der et papirkurvsikon, hvis du holder markøren over det senest anvendte trin, som vist på dette skærmbillede:

I denne tabel opsummeres de handlinger, som Data Wrangler understøtter i øjeblikket:

Handling	Beskrivelse
Sortér	Sortér en kolonne i stigende eller faldende rækkefølge
Filter	Filtrer rækker baseret på en eller flere betingelser
Kode med én varm kode	Opret nye kolonner for hver entydige værdi i en eksisterende kolonne, der angiver tilstedeværelsen eller fraværet af disse værdier pr. række
En varm kode med afgrænser	Opdel og en varm kode for kategoriske data ved hjælp af en afgrænser
Skift kolonnetype	Skift datatypen for en kolonne
Slip kolonne	Slet en eller flere kolonner
Vælg kolonne	Vælg en eller flere kolonner, der skal bevares, og slet resten
Omdøb kolonne	Omdøb en kolonne
Slip manglende værdier	Fjern rækker med manglende værdier
Slip dublerede rækker	Slip alle rækker, der har dublerede værdier i en eller flere kolonner
Udfyld manglende værdier	Erstat celler med manglende værdier med en ny værdi
Søg og erstat	Erstat celler med et nøjagtigt matchende mønster
Gruppér efter kolonne og aggregering	Gruppér efter kolonneværdier, og aggreger resultater
Blanktegn i stribe	Fjern mellemrum fra starten og slutningen af teksten
Opdel tekst	Opdel en kolonne i flere kolonner baseret på en brugerdefineret afgrænser
Konvertér tekst til små bogstaver	Konvertér tekst til små bogstaver
Konvertér tekst til store bogstaver	Konvertér tekst til STORE BOGSTAVER
Skaler min./maks. værdier	Skaler en numerisk kolonne mellem en minimum- og maksimumværdi
Hurtigudfyld	Opret automatisk en ny kolonne baseret på eksempler, der er afledt af en eksisterende kolonne

Rediger din skærm

Du kan når som helst tilpasse grænsefladen med fanen "Visninger" på værktøjslinjen over visningsgitteret Data Wrangler. Dette kan skjule eller vise forskellige ruder baseret på dine indstillinger og skærmstørrelse, som vist på dette skærmbillede:

Gemmer og eksporterer kode

Værktøjslinjen over visningsgitteret Data Wrangler indeholder indstillinger til at gemme den genererede kode. Du kan kopiere koden til Udklipsholder eller eksportere den til notesbogen som en funktion. Eksport af koden lukker Data Wrangler og føjer den nye funktion til en kodecelle i notesbogen. Du kan også downloade den rensede DataFrame som en csv-fil.

Tip

Data Wrangler genererer kode, der kun anvendes, når du kører den nye celle manuelt, og den overskriver ikke den oprindelige DataFrame, som vist på dette skærmbillede:

Du kan derefter køre den eksporterede kode som vist på dette skærmbillede:

Hvis du vil afprøve Data Wrangler på Spark DataFrames, skal du gå til denne medfølgende artikel
Hvis du vil have en live-demonstration af Data Wrangler i Fabric, kan du se denne video fra vores venner på Guy in a Cube
Hvis du vil afprøve Data Wrangler i Visual Studio Code, skal du gå til Data Wrangler i VS Code
Gik vi glip af en funktion, du har brug for? Lad os høre din mening! Foreslå det på Fabric Ideas-forummet

Del via