Slik akselererer du dataforberedelser med Data Wrangler i Microsoft Fabric

Artikkel
11/15/2023

Data Wrangler er et notatblokkbasert verktøy som gir brukerne et engasjerende grensesnitt for utforskende dataanalyse. Funksjonen kombinerer en rutenettlignende datavisning med dynamisk sammendragsstatistikk, innebygde visualiseringer og et bibliotek med vanlige datarengjøringsoperasjoner. Hver operasjon kan brukes i et spørsmål om klikk, oppdatere datavisningen i sanntid og generere kode i pandaer eller PySpark som kan lagres tilbake til notatblokken som en gjenbrukbar funksjon. Denne artikkelen fokuserer på å utforske og transformere pandas DataFrames. Instruksjoner for bruk av Data Wrangler på Spark DataFrames finner du her.

Forutsetning

Få et Microsoft Fabric-abonnement. Eller registrer deg for en gratis prøveversjon av Microsoft Fabric.
Logg på Microsoft Fabric.
Bruk opplevelsesbryteren til venstre på hjemmesiden for å bytte til Synapse Data Science-opplevelsen.

Begrensninger

Data Wrangler støtter for øyeblikket pandas-kodegenerering i generell tilgjengelighet og generering av Spark-kode i offentlig forhåndsvisning.
Egendefinerte kodeoperasjoner støttes for øyeblikket bare for pandas DataFrames.
Data Wranglers skjerm fungerer best på store skjermer, selv om ulike deler av grensesnittet kan minimeres eller skjules for å få plass til mindre skjermer.

Starter Data Wrangler

Du kan starte Data Wrangler direkte fra en Microsoft Fabric-notatblokk for å utforske og transformere pandaer eller Spark DataFrame. Hvis du vil ha en oversikt over hvordan du bruker Data Wrangler med Spark DataFrames, kan du se denne hjelpeartikkelen. Kodesnutten nedenfor viser hvordan du leser eksempeldata i en pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Bruk rullegardinlisten Data for Data på notatblokkbåndet til å bla gjennom aktive datarammer som er tilgjengelige for redigering. Velg den du vil åpne i Data Wrangler.

Tips

Data-Wrangler kan ikke åpnes mens notatblokkkjernen er opptatt. En kjørende celle må fullføre kjøringen før Data Wrangler kan startes.

Velge egendefinerte eksempler

Med Data Wrangler kan du åpne et egendefinert eksempel på en aktiv DataFrame ved å velge «Velg egendefinert eksempel» fra rullegardinlisten. Dette starter et popup-vindu med alternativer for å angi størrelsen på det ønskede utvalget (antall rader) og samplingsmetoden (første poster, siste poster eller et tilfeldig sett).

Vise sammendragsstatistikk

Når Data Wrangler lastes inn, vises en beskrivende oversikt over den valgte DataFrame i Sammendrag-panelet. Denne oversikten inneholder informasjon om DataFrames dimensjoner, manglende verdier og mer. Hvis du velger en kolonne i Data Wrangler-rutenettet, blir sammendragspanelet bedt om å oppdatere og vise beskrivende statistikk om den bestemte kolonnen. Rask innsikt om hver kolonne er også tilgjengelig i toppteksten.

Tips

Kolonnespesifikk statistikk og visualobjekter (både i sammendragspanelet og i kolonneoverskriftene) avhenger av kolonnedatatypen. Et binned histogram for en numerisk kolonne vises for eksempel bare i kolonneoverskriften hvis kolonnen er angitt som en numerisk type. Bruk Operasjoner-panelet til å sende kolonnetyper på nytt for den mest nøyaktige visningen.

Bla gjennom datarengjøringsoperasjoner

Du finner en søkbar liste over trinn for datarengjøring i Operasjoner-panelet. (Et mindre utvalg av de samme operasjonene er tilgjengelig i menyen for hver kolonneoverskrift.) Når du velger et datarengjøringstrinn i operasjonspanelet, blir du bedt om å angi en målkolonne eller kolonner, sammen med eventuelle nødvendige parametere for å fullføre trinnet. Ledeteksten for skalering av en kolonne krever for eksempel et nytt verdiområde.

Forhåndsvise og bruke operasjoner

Resultatene av en valgt operasjon forhåndsvises automatisk i visningsrutenettet for Data Wrangler, og den tilsvarende koden vises automatisk i panelet under rutenettet. Hvis du vil utføre den forhåndsviste koden, velger du Bruk på begge steder. Hvis du vil fjerne den forhåndsviste koden og prøve en ny operasjon, velger du Forkast.

Når en operasjon er brukt, viser data-Wrangler-rutenettet og sammendragsstatistikken oppdatering for å gjenspeile resultatene. Koden vises i den løpende listen over forpliktede operasjoner, som er plassert i panelet for rengjøringstrinn.

Tips

Du kan alltid angre det sist brukte trinnet med papirkurvikonet ved siden av det, som vises hvis du holder markøren over dette trinnet i panelet for rengjøringstrinn.

Tabellen nedenfor oppsummerer operasjonene som Data Wrangler for øyeblikket støtter:

Operasjon	Beskrivelse
Sorter	Sortere en kolonne i stigende eller synkende rekkefølge
Filter	Filtrere rader basert på én eller flere betingelser
En-hot kode	Opprett nye kolonner for hver unike verdi i en eksisterende kolonne, som angir tilstedeværelse eller fravær av disse verdiene per rad
En-hot kode med skilletegn	Del og en-hot kode kategoriske data ved hjelp av et skilletegn
Endre kolonnetype	Endre datatypen for en kolonne
Slipp kolonne	Slette én eller flere kolonner
Velg kolonne	Velg én eller flere kolonner du vil beholde, og slett resten
Gi nytt navn til kolonne	Gi nytt navn til en kolonne
Slipp manglende verdier	Fjerne rader med manglende verdier
Slipp dupliserte rader	Slipp alle rader som har dupliserte verdier i én eller flere kolonner
Fyll manglende verdier	Erstatt celler med manglende verdier med en ny verdi
Søk etter og erstatt	Erstatt celler med et nøyaktig samsvarende mønster
Grupper etter kolonne og aggreger	Grupper etter kolonneverdier og aggreger resultater
Stripe mellomrom	Fjerne mellomrom fra begynnelsen og slutten av teksten
Dele tekst	Dele en kolonne i flere kolonner basert på et brukerdefinert skilletegn
Konvertere tekst til små bokstaver	Konvertere tekst til små bokstaver
Konvertere tekst til store bokstaver	Konvertere tekst til STORE BOKSTAVER
Skaler min/maks.verdier	Skalere en numerisk kolonne mellom en minimums- og maksimumsverdi
Rask utfylling	Opprett automatisk en ny kolonne basert på eksempler avledet fra en eksisterende kolonne

Lagre og eksportere kode

Verktøylinjen over visningsrutenettet for Data Wrangler inneholder alternativer for å lagre den genererte koden. Du kan kopiere koden til utklippstavlen eller eksportere den til notatblokken som en funksjon. Når du eksporterer koden, lukkes Data Wrangler og den nye funksjonen legges til i en kodecelle i notatblokken. Du kan også laste ned den rengjorte DataFrame som en csv-fil.

Tips

Koden som genereres av Data Wrangler, brukes ikke før du kjører den nye cellen manuelt, og den vil ikke overskrive den opprinnelige DataFrame.

Hvis du vil prøve Data Wrangler på Spark DataFrames, kan du se denne hjelpeartikkelen.
Hvis du vil prøve Data Wrangler i VS Code, kan du se Data Wrangler i VS Code.

Del via

Slik akselererer du dataforberedelser med Data Wrangler i Microsoft Fabric

Forutsetning

Begrensninger

Starter Data Wrangler

Velge egendefinerte eksempler

Vise sammendragsstatistikk

Bla gjennom datarengjøringsoperasjoner

Forhåndsvise og bruke operasjoner

Lagre og eksportere kode

Tilbakemeldinger

Tilbakemeldinger

Flere ressurser

Del via

Slik akselererer du dataforberedelser med Data Wrangler i Microsoft Fabric

Forutsetning

Begrensninger

Starter Data Wrangler

Velge egendefinerte eksempler

Vise sammendragsstatistikk

Bla gjennom datarengjøringsoperasjoner

Forhåndsvise og bruke operasjoner

Lagre og eksportere kode

Relatert innhold

Tilbakemeldinger

Tilbakemeldinger

Flere ressurser