Sådan fremskynder du dataforberedelse med Data Wrangler i Microsoft Fabric
Data Wrangler er et notesbogbaseret værktøj, der giver brugerne en fordybende oplevelse til at udføre udforskningsdataanalyse. Funktionen kombinerer en gitterlignende datavisning med dynamisk oversigtsstatistik, indbyggede visualiseringer og et bibliotek med almindelige datarensningshandlinger. Hver handling kan anvendes i et spørgsmål om klik, opdatere datavisningen i realtid og generere kode, der kan gemmes tilbage til notesbogen som en genbrugelig funktion.
Vigtigt
Microsoft Fabric er i prøveversion.
Forudsætninger
Et Power BI Premium abonnement. Hvis du ikke har en, kan du se Sådan køber du Power BI Premium.
Et Power BI-arbejdsområde med tildelt Premium-kapacitet. Hvis du ikke har et arbejdsområde, kan du bruge trinnene i Opret et arbejdsområde til at oprette et og tildele det til en Premium-kapacitet.
Log på Microsoft Fabric.
Begrænsninger
- Data Wrangler understøtter i øjeblikket kun Pandas DataFrames. Understøttelse af Spark DataFrames er i gang.
- Data Wranglers skærm fungerer bedre på store skærme, selvom forskellige dele af grænsefladen kan minimeres eller skjules for at imødekomme mindre skærme.
Start Data Wrangler
Brugerne kan starte Data Wrangler direkte fra en Microsoft Fabric-notesbog for at udforske og transformere enhver Pandas DataFrame. Dette kodestykke viser, hvordan du læser eksempeldata i en Pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
Under fanen "Data" på notesbogbåndet skal du bruge rullelisten Data Wrangler til at gennemse de aktive Pandas DataFrames, der er tilgængelige til redigering. Vælg den, du vil åbne i Data Wrangler.
Tip
Data Wrangler kan ikke åbnes, mens notesbogkernen er optaget. En eksekveringscelle skal fuldføre udførelsen, før Data Wrangler kan startes.
Visning af oversigtsstatistik
Når Data Wrangler starter, genereres der en beskrivende oversigt over den viste DataFrame i oversigtspanelet. Denne oversigt indeholder oplysninger om DataFrames dimensioner, manglende værdier og meget mere. Hvis du vælger en hvilken som helst kolonne i gitteret Data Wrangler, bliver panelet Oversigt bedt om at opdatere og vise beskrivende statistikker om den pågældende kolonne. Hurtig indsigt om hver kolonne er også tilgængelig i overskriften.
Tip
Kolonnespecifikke statistikker og visualiseringer (både i panelet Oversigt og i kolonneoverskrifterne) afhænger af kolonnedatatypen. Et binært histogram for en numerisk kolonne vises f.eks. kun i kolonneoverskriften, hvis kolonnen er angivet som en numerisk type. Brug panelet Handlinger til at omarbejde kolonnetyper for at få den mest nøjagtige visning.
Handlinger til rensning af browserdata
Du kan finde en søgbar liste over trin til datarensning i panelet Handlinger. Du kan også få adgang til et mindre udvalg af de samme handlinger i genvejsmenuen for hver kolonne. Når du vælger et trin til datarensning i panelet Handlinger, bliver du bedt om at vælge en eller flere målkolonner sammen med eventuelle nødvendige parametre for at fuldføre trinnet. Prompten til skalering af en kolonne kræver f.eks. et nyt værdiområde.
Visning og anvendelse af handlinger
Resultaterne af en valgt handling vises automatisk i visningsgitteret Data Wrangler, og den tilsvarende kode vises automatisk i panelet under gitteret. Hvis du vil bekræfte den viste kode, skal du vælge "Anvend" på begge steder. Hvis du vil slippe af med den viste kode og prøve en ny handling, skal du vælge "Slet".
Når en handling er anvendt, opdateres gitteret og oversigtsstatistikken for Data Wrangler, så resultaterne afspejles. Den viste kode vises på den løbende liste over bekræftede handlinger, der er placeret i panelet Rengøringstrin.
Tip
Du kan altid fortryde det senest anvendte trin med papirkurvsikonet ud for det, som vises, hvis du holder markøren over dette trin i panelet Rengøringstrin.
I følgende tabel opsummeres de handlinger, som Data Wrangler i øjeblikket understøtter:
Handling | Beskrivelse |
---|---|
Sort | Sortér en kolonne i stigende eller faldende rækkefølge |
Filtrer | Filtrer rækker baseret på en eller flere betingelser |
Kode med én hot | Opret nye kolonner for hver entydige værdi i en eksisterende kolonne, der angiver tilstedeværelsen eller fraværet af disse værdier pr. række |
En varm kode med afgrænser | Opdel og en-hot koder kategoriske data ved hjælp af en afgrænser |
Skift kolonnetype | Rediger datatypen for en kolonne |
Slip kolonne | Slet en eller flere kolonner |
Vælg kolonne | Vælg en eller flere kolonner, der skal bevares, og slet resten |
Omdøb kolonne | Omdøb en kolonne |
Slip manglende værdier | Fjern rækker med manglende værdier |
Slip dublerede rækker | Slip alle rækker, der har dublerede værdier i en eller flere kolonner |
Udfyld manglende værdier | Erstat celler med manglende værdier med en ny værdi |
Søg efter og erstat | Erstat celler med et nøjagtigt matchende mønster |
Gruppér efter kolonne og aggregering | Gruppér efter kolonneværdier og aggregerede resultater |
Blanktegn i stribe | Fjern mellemrum fra starten og slutningen af teksten |
Opdel tekst | Opdel en kolonne i flere kolonner baseret på en brugerdefineret afgrænser |
Konvertér tekst til små bogstaver | Konvertér tekst til små bogstaver |
Konvertér tekst til store bogstaver | Konvertér tekst til STORE BOGSTAVER |
Skaler min./maks. værdier | Skaler en numerisk kolonne mellem en minimum- og maksimumværdi |
Hurtigudfyld | Opret automatisk en ny kolonne baseret på eksempler, der er afledt af en eksisterende kolonne |
Gemmer og eksporterer kode
Værktøjslinjen over visningsgitteret Data Wrangler indeholder indstillinger for at gemme den kode, som værktøjet genererer. Du kan kopiere koden til Udklipsholder eller eksportere den til notesbogen som en funktion. Eksport af koden lukker Data Wrangler og føjer den nye funktion til en kodecelle i notesbogen. Du kan også downloade den rensede DataFrame, der afspejles i det opdaterede data Wrangler-visningsgitter, som en csv-fil.
Tip
Den kode, der genereres af Data Wrangler, anvendes ikke, før du kører den nye celle manuelt, og den overskriver ikke den oprindelige DataFrame.
Næste trin
- Hvis du vil prøve Data Wrangler i VS Code, skal du se Data Wrangler i VS Code.