Sådan fremskynder du dataforberedelse med Data Wrangler i Microsoft Fabric

Data Wrangler er et notesbogbaseret værktøj, der giver brugerne en fordybende grænseflade til udforskning af dataanalyser. Funktionen kombinerer en gitterlignende datavisning med dynamisk oversigtsstatistik, indbyggede visualiseringer og et bibliotek med almindelige datarensningshandlinger. Hver handling kan anvendes i et spørgsmål om klik, opdatere datavisningen i realtid og generere kode i pandas eller PySpark, der kan gemmes tilbage til notesbogen som en genbrugelig funktion. I denne artikel fokuseres der på at udforske og transformere pandas DataFrames. Du kan finde instruktioner til brug af Data Wrangler på Spark DataFrames her.

Forudsætninger

  • Få et Microsoft Fabric-abonnement. Du kan også tilmelde dig en gratis Prøveversion af Microsoft Fabric.

  • Log på Microsoft Fabric.

  • Brug oplevelsesskifteren i venstre side af startsiden til at skifte til Synapse Data Science-oplevelsen.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Begrænsninger

  • Data Wrangler understøtter i øjeblikket generering af pandas-kode generelt og Generering af Spark-kode i offentlig prøveversion.
  • Brugerdefinerede kodehandlinger understøttes i øjeblikket kun for pandas DataFrames.
  • Data Wranglers visning fungerer bedst på store skærme, selvom forskellige dele af grænsefladen kan minimeres eller skjules for at imødekomme mindre skærme.

Start data-Wrangler

Du kan starte Data Wrangler direkte fra en Microsoft Fabric-notesbog for at udforske og transformere alle pandas eller Spark DataFrame. Du kan få en oversigt over, hvordan du bruger Data Wrangler med Spark DataFrames, i denne medfølgende artikel. Kodestykket nedenfor viser, hvordan du læser eksempeldata i en pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Under fanen "Data" på notesbogbåndet skal du bruge rullelisten Data Wrangler til at gennemse aktive DataFrames, der er tilgængelige til redigering. Vælg den, du vil åbne, i Data Wrangler.

Tip

Data Wrangler kan ikke åbnes, mens notesbogkernen er optaget. En eksekveringscelle skal fuldføre udførelsen, før Data Wrangler kan startes.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Valg af brugerdefinerede eksempler

Med Data Wrangler kan du åbne et brugerdefineret eksempel på en hvilken som helst aktiv DataFrame ved at vælge "Vælg brugerdefineret eksempel" på rullelisten. Hvis du gør det, startes der et pop op-vinduer med indstillinger, der angiver størrelsen på det ønskede eksempel (antal rækker) og samplingmetoden (første poster, sidste poster eller et tilfældigt sæt).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Visning af oversigtsstatistik

Når Data Wrangler indlæses, vises der en beskrivende oversigt over den valgte DataFrame i panelet Oversigt. Denne oversigt indeholder oplysninger om DataFrames dimensioner, manglende værdier og meget mere. Hvis du vælger en kolonne i gitteret Data Wrangler, bliver panelet Oversigt bedt om at opdatere og vise beskrivende statistikker om den pågældende kolonne. Hurtig indsigt om hver kolonne er også tilgængelig i overskriften.

Tip

Kolonnespecifikke statistikker og visualiseringer (både i panelet Oversigt og i kolonneoverskrifterne) afhænger af kolonnedatatypen. Et histogram i beholdere med en numerisk kolonne vises f.eks. kun i kolonneoverskriften, hvis kolonnen er angivet som en numerisk type. Brug panelet Handlinger til at omarbejde kolonnetyper for at få den mest nøjagtige visning.

Screenshot showing the Data Wrangler display grid and Summary panel.

Gennemsyn af handlinger til rensning af data

Du kan finde en søgbar liste over trin til datarensning i panelet Handlinger. (En mindre markering af de samme handlinger er tilgængelig i menuen for hver kolonneoverskrift). Når du vælger et trin til datarensning i panelet Handlinger, bliver du bedt om at angive en eller flere destinationskolonner sammen med eventuelle nødvendige parametre for at fuldføre trinnet. Prompten om skalering af en kolonne kræver f.eks. et nyt interval af værdier.

Screenshot showing the Data Wrangler Operations panel.

Visning og anvendelse af handlinger

Resultaterne af en valgt handling vises automatisk i data-Wrangler-visningsgitteret, og den tilsvarende kode vises automatisk i panelet under gitteret. Hvis du vil bekræfte den viste kode, skal du vælge "Anvend" begge sted. Hvis du vil fjerne den viste kode og prøve en ny handling, skal du vælge "Fjern".

Screenshot showing a Data Wrangler operation in progress.

Når en handling er anvendt, opdateres data-Wrangler-visningsgitteret og oversigtsstatistikken for at afspejle resultaterne. Koden vises på den løbende liste over bekræftede handlinger, der er placeret i panelet Rengøringstrin.

Screenshot showing an applied Data Wrangler operation.

Tip

Du kan altid fortryde det senest anvendte trin med papirkurvsikonet ud for det, som vises, hvis du holder markøren over trinnet i panelet Rengøringstrin.

Screenshot showing a Data Wrangler operation that can be undone.

I følgende tabel opsummeres de handlinger, som Data Wrangler understøtter i øjeblikket:

Handling Beskrivelse
Sortér Sortér en kolonne i stigende eller faldende rækkefølge
Filter Filtrer rækker baseret på en eller flere betingelser
Kode med én varm kode Opret nye kolonner for hver entydige værdi i en eksisterende kolonne, der angiver tilstedeværelsen eller fraværet af disse værdier pr. række
En varm kode med afgrænser Opdel og en varm kode for kategoriske data ved hjælp af en afgrænser
Skift kolonnetype Skift datatypen for en kolonne
Slip kolonne Slet en eller flere kolonner
Vælg kolonne Vælg en eller flere kolonner, der skal bevares, og slet resten
Omdøb kolonne Omdøb en kolonne
Slip manglende værdier Fjern rækker med manglende værdier
Slip dublerede rækker Slip alle rækker, der har dublerede værdier i en eller flere kolonner
Udfyld manglende værdier Erstat celler med manglende værdier med en ny værdi
Søg og erstat Erstat celler med et nøjagtigt matchende mønster
Gruppér efter kolonne og aggregering Gruppér efter kolonneværdier, og aggreger resultater
Blanktegn i stribe Fjern mellemrum fra starten og slutningen af teksten
Opdel tekst Opdel en kolonne i flere kolonner baseret på en brugerdefineret afgrænser
Konvertér tekst til små bogstaver Konvertér tekst til små bogstaver
Konvertér tekst til store bogstaver Konvertér tekst til STORE BOGSTAVER
Skaler min./maks. værdier Skaler en numerisk kolonne mellem en minimum- og maksimumværdi
Hurtigudfyld Opret automatisk en ny kolonne baseret på eksempler, der er afledt af en eksisterende kolonne

Gemmer og eksporterer kode

Værktøjslinjen over visningsgitteret Data Wrangler indeholder indstillinger til at gemme den genererede kode. Du kan kopiere koden til Udklipsholder eller eksportere den til notesbogen som en funktion. Eksport af koden lukker Data Wrangler og føjer den nye funktion til en kodecelle i notesbogen. Du kan også downloade den rensede DataFrame som en csv-fil.

Tip

Den kode, der genereres af Data Wrangler, anvendes ikke, før du kører den nye celle manuelt, og den overskriver ikke den oprindelige DataFrame.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.