Tietojen valmistelun nopeuttaminen Data Wranglerilla Microsoft Fabricissa
Data Wrangler -työkalu on muistikirjapohjainen resurssi, joka tarjoaa mukaansatempaavan käyttöliittymän valmistelevaa tietoanalyysia varten. Siinä yhdistyvät ruudukon kaltainen tietonäyttö, dynaamiset yhteenvetotilastot, sisäiset visualisoinnit ja kirjasto, jossa on yleisiä tietojen puhdistustoimintoja. Voit ottaa kunkin toiminnon käyttöön muutamalla vaiheella. Voit päivittää tiedot reaaliajassa ja luoda pandas- tai PySpark-koodia, jonka voit tallentaa takaisin muistikirjaan uudelleenkäytettävänä funktiona. Tässä artikkelissa keskitytään pandas DataFrames -tietojen tarkastelemiseen ja muuntamiseen. Lisätietoja Data Wranglerin käyttämisestä Spark DataFrame -kehyksissä saat tästä resurssista.
Edellytykset
Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä ilmaiseen Microsoft Fabric -kokeiluversioon.
Siirry Synapse Data Science -käyttökokemukseen aloitussivun vasemmassa reunassa olevan käyttökokemuksen vaihtajan avulla.
Rajoitukset
- Mukautettuja kooditoimintoja tuetaan tällä hetkellä vain pandas DataFrames -kehyksissä.
- Data Wrangler -näyttö toimii parhaiten suurissa näytöissä, mutta voit pienentää tai piilottaa käyttöliittymän eri osia pienille näytöille.
Data Wrangler -käynnistys
Voit käynnistää Data Wranglerin suoraan Microsoft Fabric -muistikirjasta ja tutkia ja muuntaa pandoja tai Spark DataFramea. Lisätietoja Data Wranglerin käyttämisestä Spark DataFramesin kanssa on tässä kumppanin artikkelissa. Tämä koodikatkelmi näyttää, miten voit lukea näytetietoja pandas DataFrame -kehykseksi:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Käytä muistikirjan valintanauhan Aloitus-välilehdessä avattavaa Data Wrangler -kehotetta aktiivisten DataFrame-kehyksien selaamiseen muokkausta varten. Valitse Se, jonka haluat avata Data Wranglerissa.
Vihje
Data Wrangleria ei voi avata, kun muistikirjan ydin on varattu. Suoritettavan solun on suoritettava loppuun ennen kuin Data Wrangler voidaan käynnistää, kuten tässä näyttökuvassa näkyy:
Mukautettujen mallien valitseminen
Jos haluat avata mukautetun mallin mistä tahansa aktiivisesta DataFrame-kehyksestä Data Wranglerin avulla, valitse "Valitse mukautettu malli" avattavasta valikosta tämän näyttökuvan mukaisesti:
Tämä käynnistää ponnahdusikkunan, jossa on asetukset halutun näytteen koon (rivien määrä) ja näytteenottomenetelmän (ensimmäiset tietueet, viimeiset tietueet tai satunnaisjoukko) määrittäminen. DataFramen ensimmäiset 5 000 riviä toimivat oletusmallikokona seuraavassa näyttökuvassa esitetyllä tavalla:
Yhteenvetotilastojen tarkasteleminen
Kun Data Wrangler latautuu, se näyttää yhteenvetopaneelissa kuvaavan yleiskatsauksen valitusta DataFramesta. Tämä yleiskatsaus sisältää tietoja DataFrame-dimensioista, sen puuttuvista arvoista ja muusta. Kun valitset minkä tahansa Sarakkeen Data Wrangler -ruudukossa, Yhteenveto-paneeli päivittää ja näyttää kuvaavat tilastotiedot kyseisestä sarakkeesta. Nopeat merkitykselliset tiedot jokaisesta sarakkeesta ovat myös sen otsikossa.
Vihje
Sarakekohtaiset tilastotiedot ja visualisoinnit (sekä Yhteenveto-paneelissa että sarakeotsikoissa) riippuvat sarakkeen tietotyypistä. Esimerkiksi numeerisen sarakkeen lokeroitu histogrammi näkyy sarakeotsikossa vain, jos sarake on muuntettu numeeriseksi tyypiksi, kuten tässä näyttökuvassa esitetään:
Tietojenpuhdistustoimintojen selaaminen
Hakukelpoisia tietojen puhdistusvaiheita on Toiminnot-paneelissa. Toiminnot-paneelissa tietojen siistimisvaiheen valinta kehottaa sinua antamaan kohdesarakkeen tai -sarakkeet sekä kaikki vaiheen suorittamiseen tarvittavat parametrit. Esimerkiksi kehote skaalata sarake numeerisesti edellyttää uutta arvoaluetta, kuten tässä näyttökuvassa esitetään:
Vihje
Voit käyttää pienempää toimintovalikoimaa kunkin sarakeotsikon valikosta seuraavassa näyttökuvassa esitetyllä tavalla:
Toimintojen esikatselu ja käyttöönotto
Data Wrangler -näyttöruudukko esikatsele automaattisesti valitun toiminnon tuloksia, ja vastaava koodi näkyy automaattisesti ruudukon alla olevassa paneelissa. Vahvista esikatselemasi koodi valitsemalla kummassakin kohdassa Käytä. Jos haluat poistaa esikatselun koodin ja kokeilla uutta toimintoa, valitse Hylkää tässä näyttökuvassa esitetyllä tavalla:
Kun toiminto on käytössä, Tietojen Wrangler-toiminnon näyttämisen ruudukko ja yhteenvetotilastot päivittyvät tulosten mukaisesti. Koodi näkyy varattujen toimintojen käynnissä olevassa luettelossa, joka sijaitsee "Puhdistusvaiheet"-paneelissa, kuten tässä näyttökuvassa esitetään:
Vihje
Voit aina kumota viimeisimmän käytössä olevan vaiheen. Siistimisvaiheet -paneelissa näkyy roskakorikuvake, jos viet kohdistimen viimeksi käytetyn vaiheen päälle, kuten tässä näyttökuvassa on esitetty:
Tässä taulukossa on yhteenveto toiminnoista, joita Data Wrangler tällä hetkellä tukee:
Toiminto | Kuvaus |
---|---|
Lajittele | Lajittele sarake nousevassa tai laskevassa järjestyksessä |
Suodata | Suodata rivit yhden tai useamman ehdon perusteella |
Yksi kuuma koodaus | Luo uudet sarakkeet kullekin olemassa olevan sarakkeen yksilöivälle arvolle, mikä ilmaisee, että kyseiset arvot riviä kohti ovat olemassa tai eivät ole. |
Yhden kuuma koodaus ja erotin | Luokittaiset ja jaetut koodaustiedot erottimen avulla |
Muuta saraketyyppiä | Sarakkeen tietotyypin muuttaminen |
Sarakkeiden pudottaminen | Yhden tai useamman sarakkeen poistaminen |
Valitse sarake | Valitse vähintään yksi sarake ja poista loput |
Sarakkeen nimeäminen uudelleen | Sarakkeen nimeäminen uudelleen |
Jätä puuttuvat arvot pois | Poista rivit, joilla on puuttuvia arvoja |
Rivien kaksoiskappaleiden pudottaminen | Pudota kaikki rivit, joilla on arvojen kaksoiskappaleita yhdessä tai useammassa sarakkeessa |
Täytä puuttuvat arvot | Korvaa solut puuttuvista arvoista uudella arvolla |
Etsi ja korvaa | Korvaa solut tarkalla vastaavalla mallilla |
Ryhmittely sarakkeen ja koosteen mukaan | Ryhmittely sarakkeen arvojen ja koostetulosten mukaan |
Stripin välilyönnit | Poista välilyönnit tekstin alusta ja lopusta |
Tekstin jakaminen | Jaa sarake useisiin sarakkeisiin käyttäjän määrittämän erottimen perusteella |
Muunna teksti pieniksi kirjaimiksi | Muunna teksti pieniksi kirjaimiksi |
Muunna teksti isoilla kirjaimilla | Muunna teksti ISOILLA KIRJAIMILLA |
Skaalaa minimi-/maksimiarvot | Skaalaa numeerinen sarake minimi- ja maksimiarvon välille |
Flash-täyttö | Luo uusi sarake automaattisesti olemassa olevasta sarakkeesta johdettujen esimerkkien perusteella |
Näytön muokkaaminen
Voit milloin tahansa mukauttaa -käyttöliittymää Data Wrangler -näyttöruudukon yläpuolella olevan työkalurivin Näkymät-välilehdellä. Tämä voi piilottaa tai näyttää eri ruutuja asetusten ja näytön koon mukaan seuraavassa näyttökuvassa esitetyllä tavalla:
Koodin tallentaminen ja vieminen
Data Wrangler -näyttöruudukon yläpuolella olevalla työkalurivillä on vaihtoehtoja luodun koodin tallentamiseksi. Voit kopioida koodin leikepöydälle tai viedä sen muistikirjaan funktiona. Koodin vienti sulkee Data Wranglerin ja lisää uuden funktion muistikirjan koodisoluun. Voit myös ladata puhdistetun DataFramen csv-tiedostona.
Vihje
Data Wrangler luo koodin, jota käytetään vain, kun suoritat uuden solun manuaalisesti, eikä se korvaa alkuperäistä DataFrame-kehystä tässä näyttökuvassa esitetyllä tavalla:
Voit sitten suorittaa viedyn koodin seuraavassa näyttökuvassa esitetyllä tavalla:
Liittyvä sisältö
- Jos haluat kokeilla Data Wrangleria Spark DataFramesissa, tutustu tähän kumppanin artikkeliin
- Jos haluat live-action-esittelyn Data Wranglerista Fabricissa, tutustu tähän videoon ystäviltämme Guy in a Cube -tapahtumassa
- Jos haluat kokeilla Data Wrangleria Visual Studio Codessa, siirry kohtaan Data Wrangler VS Codessa
- Jäikö tarvitsemasi ominaisuus väliin? Kerro meille siitä! Ehdota sitä Fabric Ideas -keskustelupalstalla