Tietojen valmistelun nopeuttaminen Data Wranglerilla Microsoft Fabricissa

Artikkeli
08/14/2024

Data Wrangler -työkalu on muistikirjapohjainen resurssi, joka tarjoaa mukaansatempaavan käyttöliittymän valmistelevaa tietoanalyysia varten. Siinä yhdistyvät ruudukon kaltainen tietonäyttö, dynaamiset yhteenvetotilastot, sisäiset visualisoinnit ja kirjasto, jossa on yleisiä tietojen puhdistustoimintoja. Voit ottaa kunkin toiminnon käyttöön muutamalla vaiheella. Voit päivittää tiedot reaaliajassa ja luoda pandas- tai PySpark-koodia, jonka voit tallentaa takaisin muistikirjaan uudelleenkäytettävänä funktiona. Tässä artikkelissa keskitytään pandas DataFrames -tietojen tarkastelemiseen ja muuntamiseen. Lisätietoja Data Wranglerin käyttämisestä Spark DataFrame -kehyksissä saat tästä resurssista.

Edellytykset

Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä ilmaiseen Microsoft Fabric -kokeiluversioon.
Kirjaudu sisään Microsoft Fabriciin.
Vaihda Fabriciin aloitussivun vasemmassa alakulmassa olevan käyttökokemuksen vaihtajan avulla.

Rajoitukset

Mukautettuja kooditoimintoja tuetaan tällä hetkellä vain pandas DataFrames -kehyksissä.
Data Wrangler -näyttö toimii parhaiten suurissa näytöissä, mutta voit pienentää tai piilottaa käyttöliittymän eri osia pienille näytöille.

Data Wrangler -käynnistys

Voit käynnistää Data Wranglerin suoraan Microsoft Fabric -muistikirjasta ja tutkia ja muuntaa pandoja tai Spark DataFramea. Lisätietoja Data Wranglerin käyttämisestä Spark DataFramesin kanssa on tässä kumppanin artikkelissa. Tämä koodikatkelmi näyttää, miten voit lukea näytetietoja pandas DataFrame -kehykseksi:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Käytä muistikirjan valintanauhan Aloitus-välilehdessä avattavaa Data Wrangler -kehotetta aktiivisten DataFrame-kehyksien selaamiseen muokkausta varten. Valitse Se, jonka haluat avata Data Wranglerissa.

Vihje

Data Wrangleria ei voi avata, kun muistikirjan ydin on varattu. Suoritettavan solun on suoritettava loppuun ennen kuin Data Wrangler voidaan käynnistää, kuten tässä näyttökuvassa näkyy:

Mukautettujen mallien valitseminen

Jos haluat avata mukautetun mallin mistä tahansa aktiivisesta DataFrame-kehyksestä Data Wranglerin avulla, valitse "Valitse mukautettu malli" avattavasta valikosta tämän näyttökuvan mukaisesti:

Tämä käynnistää ponnahdusikkunan, jossa on asetukset halutun näytteen koon (rivien määrä) ja näytteenottomenetelmän (ensimmäiset tietueet, viimeiset tietueet tai satunnaisjoukko) määrittäminen. DataFramen ensimmäiset 5 000 riviä toimivat oletusmallikokona seuraavassa näyttökuvassa esitetyllä tavalla:

Yhteenvetotilastojen tarkasteleminen

Kun Data Wrangler latautuu, se näyttää yhteenvetopaneelissa kuvaavan yleiskatsauksen valitusta DataFramesta. Tämä yleiskatsaus sisältää tietoja DataFrame-dimensioista, sen puuttuvista arvoista ja muusta. Kun valitset minkä tahansa Sarakkeen Data Wrangler -ruudukossa, Yhteenveto-paneeli päivittää ja näyttää kuvaavat tilastotiedot kyseisestä sarakkeesta. Nopeat merkitykselliset tiedot jokaisesta sarakkeesta ovat myös sen otsikossa.

Vihje

Sarakekohtaiset tilastotiedot ja visualisoinnit (sekä Yhteenveto-paneelissa että sarakeotsikoissa) riippuvat sarakkeen tietotyypistä. Esimerkiksi numeerisen sarakkeen lokeroitu histogrammi näkyy sarakeotsikossa vain, jos sarake on muuntettu numeeriseksi tyypiksi, kuten tässä näyttökuvassa esitetään:

Tietojenpuhdistustoimintojen selaaminen

Hakukelpoisia tietojen puhdistusvaiheita on Toiminnot-paneelissa. Toiminnot-paneelissa tietojen siistimisvaiheen valinta kehottaa sinua antamaan kohdesarakkeen tai -sarakkeet sekä kaikki vaiheen suorittamiseen tarvittavat parametrit. Esimerkiksi kehote skaalata sarake numeerisesti edellyttää uutta arvoaluetta, kuten tässä näyttökuvassa esitetään:

Vihje

Voit käyttää pienempää toimintovalikoimaa kunkin sarakeotsikon valikosta seuraavassa näyttökuvassa esitetyllä tavalla:

Toimintojen esikatselu ja käyttöönotto

Data Wrangler -näyttöruudukko esikatsele automaattisesti valitun toiminnon tuloksia, ja vastaava koodi näkyy automaattisesti ruudukon alla olevassa paneelissa. Vahvista esikatselemasi koodi valitsemalla kummassakin kohdassa Käytä. Jos haluat poistaa esikatselun koodin ja kokeilla uutta toimintoa, valitse Hylkää tässä näyttökuvassa esitetyllä tavalla:

Kun toiminto on käytössä, Tietojen Wrangler-toiminnon näyttämisen ruudukko ja yhteenvetotilastot päivittyvät tulosten mukaisesti. Koodi näkyy varattujen toimintojen käynnissä olevassa luettelossa, joka sijaitsee "Puhdistusvaiheet"-paneelissa, kuten tässä näyttökuvassa esitetään:

Vihje

Voit aina kumota viimeisimmän käytössä olevan vaiheen. Siistimisvaiheet -paneelissa näkyy roskakorikuvake, jos viet kohdistimen viimeksi käytetyn vaiheen päälle, kuten tässä näyttökuvassa on esitetty:

Tässä taulukossa on yhteenveto toiminnoista, joita Data Wrangler tällä hetkellä tukee:

Toiminto	Kuvaus
Lajittele	Lajittele sarake nousevassa tai laskevassa järjestyksessä
Suodata	Suodata rivit yhden tai useamman ehdon perusteella
Yksi kuuma koodaus	Luo uudet sarakkeet kullekin olemassa olevan sarakkeen yksilöivälle arvolle, mikä ilmaisee, että kyseiset arvot riviä kohti ovat olemassa tai eivät ole.
Yhden kuuma koodaus ja erotin	Luokittaiset ja jaetut koodaustiedot erottimen avulla
Muuta saraketyyppiä	Sarakkeen tietotyypin muuttaminen
Sarakkeiden pudottaminen	Yhden tai useamman sarakkeen poistaminen
Valitse sarake	Valitse vähintään yksi sarake ja poista loput
Sarakkeen nimeäminen uudelleen	Sarakkeen nimeäminen uudelleen
Jätä puuttuvat arvot pois	Poista rivit, joilla on puuttuvia arvoja
Rivien kaksoiskappaleiden pudottaminen	Pudota kaikki rivit, joilla on arvojen kaksoiskappaleita yhdessä tai useammassa sarakkeessa
Täytä puuttuvat arvot	Korvaa solut puuttuvista arvoista uudella arvolla
Etsi ja korvaa	Korvaa solut tarkalla vastaavalla mallilla
Ryhmittely sarakkeen ja koosteen mukaan	Ryhmittely sarakkeen arvojen ja koostetulosten mukaan
Stripin välilyönnit	Poista välilyönnit tekstin alusta ja lopusta
Tekstin jakaminen	Jaa sarake useisiin sarakkeisiin käyttäjän määrittämän erottimen perusteella
Muunna teksti pieniksi kirjaimiksi	Muunna teksti pieniksi kirjaimiksi
Muunna teksti isoilla kirjaimilla	Muunna teksti ISOILLA KIRJAIMILLA
Skaalaa minimi-/maksimiarvot	Skaalaa numeerinen sarake minimi- ja maksimiarvon välille
Flash-täyttö	Luo uusi sarake automaattisesti olemassa olevasta sarakkeesta johdettujen esimerkkien perusteella

Näytön muokkaaminen

Voit milloin tahansa mukauttaa -käyttöliittymää Data Wrangler -näyttöruudukon yläpuolella olevan työkalurivin Näkymät-välilehdellä. Tämä voi piilottaa tai näyttää eri ruutuja asetusten ja näytön koon mukaan seuraavassa näyttökuvassa esitetyllä tavalla:

Koodin tallentaminen ja vieminen

Data Wrangler -näyttöruudukon yläpuolella olevalla työkalurivillä on vaihtoehtoja luodun koodin tallentamiseksi. Voit kopioida koodin leikepöydälle tai viedä sen muistikirjaan funktiona. Koodin vienti sulkee Data Wranglerin ja lisää uuden funktion muistikirjan koodisoluun. Voit myös ladata puhdistetun DataFramen csv-tiedostona.

Vihje

Data Wrangler luo koodin, jota käytetään vain, kun suoritat uuden solun manuaalisesti, eikä se korvaa alkuperäistä DataFrame-kehystä tässä näyttökuvassa esitetyllä tavalla:

Voit sitten suorittaa viedyn koodin seuraavassa näyttökuvassa esitetyllä tavalla:

Jos haluat kokeilla Data Wrangleria Spark DataFramesissa, tutustu tähän kumppanin artikkeliin
Jos haluat live-action-esittelyn Data Wranglerista Fabricissa, tutustu tähän videoon ystäviltämme Guy in a Cube -tapahtumassa
Jos haluat kokeilla Data Wrangleria Visual Studio Codessa, siirry kohtaan Data Wrangler VS Codessa
Jäikö tarvitsemasi ominaisuus väliin? Kerro meille siitä! Ehdota sitä Fabric Ideas -keskustelupalstalla

Jaa

Tietojen valmistelun nopeuttaminen Data Wranglerilla Microsoft Fabricissa

Edellytykset

Rajoitukset

Data Wrangler -käynnistys

Mukautettujen mallien valitseminen

Yhteenvetotilastojen tarkasteleminen

Tietojenpuhdistustoimintojen selaaminen

Toimintojen esikatselu ja käyttöönotto

Näytön muokkaaminen

Koodin tallentaminen ja vieminen

Palaute

Lisäresursseja

Jaa

Tietojen valmistelun nopeuttaminen Data Wranglerilla Microsoft Fabricissa

Edellytykset

Rajoitukset

Data Wrangler -käynnistys

Mukautettujen mallien valitseminen

Yhteenvetotilastojen tarkasteleminen

Tietojenpuhdistustoimintojen selaaminen

Toimintojen esikatselu ja käyttöönotto

Näytön muokkaaminen

Koodin tallentaminen ja vieminen

Liittyvä sisältö

Palaute

Lisäresursseja