Slik bruker du Data Wrangler på Spark DataFrames (forhåndsvisning)
Data Wrangler, et notatblokkbasert verktøy for utforskende dataanalyse, støtter nå både Spark DataFrames og pandas DataFrames, som genererer PySpark-kode i tillegg til Python-kode. Hvis du vil ha en generell oversikt over Data Wrangler, som dekker hvordan du utforsker og transformerer pandas DataFrames, kan du se hovedopplæringen. Følgende opplæring viser hvordan du bruker Data Wrangler til å utforske og transformere Spark DataFrames.
Viktig
Denne funksjonen er i forhåndsvisning.
Forutsetning
Få et Microsoft Fabric-abonnement. Eller registrer deg for en gratis prøveversjon av Microsoft Fabric.
Logg på Microsoft Fabric.
Bruk opplevelsesbryteren til venstre på hjemmesiden for å bytte til Synapse Data Science-opplevelsen.
Starte Data Wrangler med en Spark DataFrame
Brukere kan åpne Spark DataFrames i Data Wrangler direkte fra en Microsoft Fabric-notatblokk, ved å navigere til den samme rullegardinlisten der pandas DataFrames vises. En liste over aktive Spark DataFrames vises i rullegardinlisten under listen over aktive pandavariabler.
Den neste kodesnutten oppretter en Spark DataFrame med de samme eksempeldataene som brukes i pandas Data Wrangler-opplæringen:
import pandas as pd
# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)
Bruk rullegardinlisten Data for Data på notatblokkbåndet til å bla gjennom aktive datarammer som er tilgjengelige for redigering. Velg den du vil åpne i Data Wrangler.
Tips
Data-Wrangler kan ikke åpnes mens notatblokkkjernen er opptatt. En kjørende celle må fullføre kjøringen før Data Wrangler kan startes.
Velge egendefinerte eksempler
Data Wrangler konverterer automatisk Spark DataFrames til pandas-eksempler av ytelsesårsaker. All kode som genereres av verktøyet, oversettes imidlertid til PySpark når den eksporteres tilbake til notatblokken. Som med alle pandaer i DataFrame, kan du tilpasse standardeksempelet ved å velge «Velg egendefinert eksempel» fra rullegardinmenyen Data Wrangler. Dette starter et popup-vindu med alternativer for å angi størrelsen på det ønskede utvalget (antall rader) og samplingsmetoden (første poster, siste poster eller et tilfeldig sett).
Vise sammendragsstatistikk
Når Data Wrangler lastes inn, minner et informasjonsbanner over forhåndsvisningsrutenettet deg på at Spark DataFrames konverteres midlertidig til pandas-eksempler, men all generert kode konverteres til PySpark. Bruk av Data Wrangler på Spark DataFrames er ellers ikke forskjellig fra å bruke det på pandas DataFrames. En beskrivende oversikt i Sammendrag-panelet viser informasjon om eksemplets dimensjoner, manglende verdier og mer. Hvis du velger en kolonne i Data Wrangler-rutenettet, blir sammendragspanelet bedt om å oppdatere og vise beskrivende statistikk om den bestemte kolonnen. Rask innsikt om hver kolonne er også tilgjengelig i toppteksten.
Tips
Kolonnespesifikk statistikk og visualobjekter (både i sammendragspanelet og i kolonneoverskriftene) avhenger av kolonnedatatypen. Et binned histogram for en numerisk kolonne vises for eksempel bare i kolonneoverskriften hvis kolonnen er angitt som en numerisk type. Bruk Operasjoner-panelet til å sende kolonnetyper på nytt for den mest nøyaktige visningen.
Bla gjennom datarengjøringsoperasjoner
Du finner en søkbar liste over trinn for datarengjøring i Operasjoner-panelet. (Et mindre utvalg av de samme operasjonene er også tilgjengelig i kontekstmenyen for hver kolonne.) Når du velger et datarengjøringstrinn i operasjonspanelet, blir du bedt om å angi en målkolonne eller kolonner, sammen med eventuelle nødvendige parametere for å fullføre trinnet. Ledeteksten for skalering av en kolonne krever for eksempel et nytt verdiområde.
Forhåndsvise og bruke operasjoner
Resultatene av en valgt operasjon forhåndsviseres automatisk i visningsrutenettet for Data Wrangler, og den tilsvarende koden vises automatisk i panelet under rutenettet. Hvis du vil utføre den forhåndsviste koden, velger du Bruk på begge steder. Hvis du vil fjerne den forhåndsviste koden og prøve en ny operasjon, velger du Forkast.
Når en operasjon er brukt, viser data-Wrangler-rutenettet og sammendragsstatistikken oppdatering for å gjenspeile resultatene. Koden vises i den løpende listen over forpliktede operasjoner, som er plassert i panelet for rengjøringstrinn.
Tips
Du kan alltid angre det sist brukte trinnet med papirkurvikonet ved siden av det, som vises hvis du holder markøren over dette trinnet i panelet for rengjøringstrinn.
Tabellen nedenfor oppsummerer operasjonene som Data Wrangler for øyeblikket støtter for Spark DataFrames:
Operasjon | Beskrivelse |
---|---|
Sorter | Sortere en kolonne i stigende eller synkende rekkefølge |
Filter | Filtrere rader basert på én eller flere betingelser |
En-hot kode | Opprett nye kolonner for hver unike verdi i en eksisterende kolonne, som angir tilstedeværelse eller fravær av disse verdiene per rad |
En-hot kode med skilletegn | Del og en-hot kode kategoriske data ved hjelp av et skilletegn |
Endre kolonnetype | Endre datatypen for en kolonne |
Slipp kolonne | Slette én eller flere kolonner |
Velg kolonne | Velg én eller flere kolonner du vil beholde, og slett resten |
Gi nytt navn til kolonne | Gi nytt navn til en kolonne |
Slipp manglende verdier | Fjerne rader med manglende verdier |
Slipp dupliserte rader | Slipp alle rader som har dupliserte verdier i én eller flere kolonner |
Fyll manglende verdier | Erstatt celler med manglende verdier med en ny verdi |
Søk etter og erstatt | Erstatt celler med et nøyaktig samsvarende mønster |
Grupper etter kolonne og aggreger | Grupper etter kolonneverdier og aggreger resultater |
Stripe mellomrom | Fjerne mellomrom fra begynnelsen og slutten av teksten |
Dele tekst | Dele en kolonne i flere kolonner basert på et brukerdefinert skilletegn |
Konvertere tekst til små bokstaver | Konvertere tekst til små bokstaver |
Konvertere tekst til store bokstaver | Konvertere tekst til STORE BOKSTAVER |
Skaler min/maks.verdier | Skalere en numerisk kolonne mellom en minimums- og maksimumsverdi |
Rask utfylling | Opprett automatisk en ny kolonne basert på eksempler avledet fra en eksisterende kolonne |
Lagre og eksportere kode
Verktøylinjen over visningsrutenettet for Data Wrangler inneholder alternativer for å lagre den genererte koden. Du kan kopiere koden til utklippstavlen eller eksportere den til notatblokken som en funksjon. For Spark DataFrames oversettes all koden som genereres på pandas-eksemplet, til PySpark før den lander tilbake i notatblokken. Før Data Wrangler lukkes, viser verktøyet en forhåndsvisning av den oversatte PySpark-koden og gir et alternativ for å eksportere den mellomliggende pandakoden også.
Tips
Koden som genereres av Data Wrangler, brukes ikke før du kjører den nye cellen manuelt, og den vil ikke overskrive den opprinnelige DataFrame.
Relatert innhold
- Hvis du vil ha en oversikt over Data Wrangler, kan du se denne hjelpeartikkelen.
- Hvis du vil prøve Data Wrangler i VS Code, kan du se Data Wrangler i VS Code.
Tilbakemeldinger
https://aka.ms/ContentUserFeedback.
Kommer snart: Gjennom 2024 faser vi ut GitHub Issues som tilbakemeldingsmekanisme for innhold, og erstatter det med et nytt system for tilbakemeldinger. Hvis du vil ha mer informasjon, kan du se:Send inn og vis tilbakemelding for