Slik akselererer du dataforberedelser med Data Wrangler i Microsoft Fabric

Data Wrangler er et notatblokkbasert verktøy som gir brukerne en engasjerende opplevelse for å utføre utforskende dataanalyse. Funksjonen kombinerer en rutenettlignende datavisning med dynamisk sammendragsstatistikk, innebygde visualiseringer og et bibliotek med vanlige datarengjøringsoperasjoner. Hver operasjon kan brukes i et spørsmål om klikk, oppdatere datavisningen i sanntid og generere kode som kan lagres tilbake til notatblokken som en gjenbrukbar funksjon.

Viktig

Microsoft Fabric er for øyeblikket i FORHÅNDSVERSJON. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.

Forutsetninger

Begrensninger

  • Data Wrangler støtter for øyeblikket bare Pandas DataFrames. Støtte for Spark DataFrames pågår.
  • Data Wranglers skjerm fungerer bedre på store skjermer, selv om ulike deler av grensesnittet kan minimeres eller skjules for å få plass til mindre skjermer.

Start Data Wrangler

Brukere kan starte Data Wrangler direkte fra en Microsoft Fabric-notatblokk for å utforske og transformere enhver Pandas DataFrame. Denne kodesnutten viser hvordan du leser eksempeldata i en Pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

Bruk rullegardinlisten Data på notatblokkbåndet til å bla gjennom de aktive Pandas-datarammene som er tilgjengelige for redigering. Velg den du vil åpne i Data Wrangler.

Tips

Data-Wrangler kan ikke åpnes mens notatblokkkjernen er opptatt. En kjørende celle må fullføre kjøringen før Data Wrangler kan startes.

Skjermbilde som viser en Fabric-notatblokk med rullegardinlisten Data Wrangler.

Vise sammendragsstatistikk

Når Data Wrangler starter, genererer den en beskrivende oversikt over datarammen som vises i Sammendrag-panelet. Denne oversikten inneholder informasjon om datarammens dimensjoner, manglende verdier og mer. Hvis du velger en kolonne i Data Wrangler-rutenettet, blir sammendragspanelet bedt om å oppdatere og vise beskrivende statistikk om den bestemte kolonnen. Rask innsikt om hver kolonne er også tilgjengelig i toppteksten.

Tips

Kolonnespesifikk statistikk og visualobjekter (i både Sammendrag-panelet og i kolonneoverskriftene) avhenger av kolonnedatatypen. Et binned histogram for en numerisk kolonne vises for eksempel bare i kolonneoverskriften hvis kolonnen er angitt som en numerisk type. Bruk Operasjoner-panelet til å sende kolonnetyper på nytt for den mest nøyaktige visningen.

Skjermbilde som viser data-Wrangler-visningsrutenettet og sammendragspanelet.

Bla gjennom datarengjøringsoperasjoner

Du finner en søkbar liste over trinn for datarengjøring i Operasjoner-panelet. (Du kan også få tilgang til et mindre utvalg av de samme operasjonene i hurtigmenyen for hver kolonne.) Når du velger et datarengjøringstrinn i Operasjoner-panelet, blir du bedt om å velge en målkolonne eller -kolonne, sammen med eventuelle nødvendige parametere for å fullføre trinnet. Ledeteksten for skalering av en kolonne krever for eksempel et nytt verdiområde.

Skjermbilde som viser data-Wrangler-operasjonspanelet.

Forhåndsvise og bruke operasjoner

Resultatene av en valgt operasjon forhåndsvises automatisk i visningsrutenettet for Data Wrangler, og den tilsvarende koden vises automatisk i panelet under rutenettet. Hvis du vil utføre den forhåndsviste koden, velger du Bruk på begge steder. Hvis du vil fjerne den forhåndsviste koden og prøve en ny operasjon, velger du Forkast.

Skjermbilde som viser en data-Wrangler-operasjon som pågår.

Når en operasjon er brukt, viser Data Wrangler rutenett og sammendragsstatistikk for å gjenspeile resultatene. Den forhåndsviste koden vises i den løpende listen over forpliktede operasjoner, plassert i panelet Forringstrinn.

Skjermbilde som viser en brukt Data Wrangler-operasjon.

Tips

Du kan alltid angre det sist brukte trinnet med papirkurvikonet ved siden av, som vises hvis du holder markøren over dette trinnet i panelet Forringstrinn.

Skjermbilde som viser en Data Wrangler-operasjon som kan angres.

Tabellen nedenfor oppsummerer operasjonene som Data Wrangler støtter for øyeblikket:

Operasjon Beskrivelse
Sort Sortere en kolonne i stigende eller synkende rekkefølge
Filtrer Filtrere rader basert på én eller flere betingelser
En-hot kode Opprett nye kolonner for hver unike verdi i en eksisterende kolonne, som angir tilstedeværelsen eller fraværet av disse verdiene per rad
En-hot kode med skilletegn Dele og en-hot kode kategoriske data ved hjelp av et skilletegn
Endre kolonnetype Endre datatypen for en kolonne
Slipp kolonne Slette én eller flere kolonner
Velg kolonne Velg én eller flere kolonner som skal beholdes, og slett resten
Gi nytt navn til kolonne Gi nytt navn til en kolonne
Slipp manglende verdier Fjerne rader med manglende verdier
Slipp dupliserte rader Slipp alle rader som har dupliserte verdier i én eller flere kolonner
Fyll ut manglende verdier Erstatt celler med manglende verdier med en ny verdi
Søk etter og erstatt Erstatt celler med et nøyaktig samsvarende mønster
Grupper etter kolonne og aggreger Grupper etter kolonneverdier og aggreger resultater
Stripe-mellomrom Fjerne mellomrom fra begynnelsen og slutten av teksten
Dele tekst Dele en kolonne i flere kolonner basert på et brukerdefinert skilletegn
Konvertere tekst til små bokstaver Konvertere tekst til små bokstaver
Konvertere tekst til store bokstaver Konvertere tekst til STORE BOKSTAVER
Skaler minimums-/maks-verdier Skaler en numerisk kolonne mellom en minimums- og maksimumsverdi
Rask utfylling Opprett automatisk en ny kolonne basert på eksempler avledet fra en eksisterende kolonne

Lagre og eksportere kode

Verktøylinjen over visningsrutenettet for Data Wrangler inneholder alternativer for å lagre koden som verktøyet genererer. Du kan kopiere koden til utklippstavlen eller eksportere den til notatblokken som en funksjon. Når du eksporterer koden, lukkes Data Wrangler og den nye funksjonen legges til i en kodecelle i notatblokken. Du kan også laste ned den rensede DataFrame, som gjenspeiles i det oppdaterte data-Wrangler-visningsrutenettet, som en csv-fil.

Tips

Koden som genereres av Data Wrangler, brukes ikke før du kjører den nye cellen manuelt, og den vil ikke overskrive den opprinnelige DataFrame.

Skjermbilde som viser alternativene for å eksportere kode i Data Wrangler.

Skjermbilde som viser koden som genereres av Data Wrangler, tilbake i notatblokken.

Neste trinn