Jaa


Tietojen valmistelun nopeuttaminen Data Wranglerilla Microsoft Fabricissa

Data Wrangler -työkalu on muistikirjapohjainen resurssi, joka tarjoaa mukaansatempaavan käyttöliittymän valmistelevaa tietoanalyysia varten. Siinä yhdistyvät ruudukon kaltainen tietonäyttö, dynaamiset yhteenvetotilastot, sisäiset visualisoinnit ja kirjasto, jossa on yleisiä tietojen puhdistustoimintoja. Voit ottaa kunkin toiminnon käyttöön muutamalla vaiheella. Voit päivittää tiedot reaaliajassa ja luoda pandas- tai PySpark-koodia, jonka voit tallentaa takaisin muistikirjaan uudelleenkäytettävänä funktiona. Tässä artikkelissa keskitytään pandas DataFrames -tietojen tarkastelemiseen ja muuntamiseen. Lisätietoja Data Wranglerin käyttämisestä Spark DataFrame -kehyksissä saat tästä resurssista.

Edellytykset

Rajoitukset

  • Mukautettuja kooditoimintoja tuetaan tällä hetkellä vain pandas DataFrames -kehyksissä.
  • Data Wrangler -näyttö toimii parhaiten suurissa näytöissä, mutta voit pienentää tai piilottaa käyttöliittymän eri osia pienille näytöille.

Data Wrangler -käynnistys

Voit käynnistää Data Wranglerin suoraan Microsoft Fabric -muistikirjasta ja tutkia ja muuntaa pandoja tai Spark DataFramea. Lisätietoja Data Wranglerin käyttämisestä Spark DataFramesin kanssa on tässä kumppanin artikkelissa. Tämä koodikatkelmi näyttää, miten voit lukea näytetietoja pandas DataFrame -kehykseksi:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Käytä muistikirjan valintanauhan Aloitus-välilehdessä avattavaa Data Wrangler -kehotetta aktiivisten DataFrame-kehyksien selaamiseen muokkausta varten. Valitse Se, jonka haluat avata Data Wranglerissa.

Vihje

Data Wrangleria ei voi avata, kun muistikirjan ydin on varattu. Suoritettavan solun on suoritettava loppuun ennen kuin Data Wrangler voidaan käynnistää, kuten tässä näyttökuvassa näkyy:

Näyttökuva, jossa näkyy Fabric-muistikirja ja avattava Data Wrangler -kehote.

Mukautettujen mallien valitseminen

Jos haluat avata mukautetun mallin mistä tahansa aktiivisesta DataFrame-kehyksestä Data Wranglerin avulla, valitse "Valitse mukautettu malli" avattavasta valikosta tämän näyttökuvan mukaisesti:

Näyttökuva, jossa näkyy avattava Data Wrangler -valikkokehote mukautettu malliasetus korostettuna.

Tämä käynnistää ponnahdusikkunan, jossa on asetukset halutun näytteen koon (rivien määrä) ja näytteenottomenetelmän (ensimmäiset tietueet, viimeiset tietueet tai satunnaisjoukko) määrittäminen. DataFramen ensimmäiset 5 000 riviä toimivat oletusmallikokona seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Data Wranglerin mukautettu mallikehote.

Yhteenvetotilastojen tarkasteleminen

Kun Data Wrangler latautuu, se näyttää yhteenvetopaneelissa kuvaavan yleiskatsauksen valitusta DataFramesta. Tämä yleiskatsaus sisältää tietoja DataFrame-dimensioista, sen puuttuvista arvoista ja muusta. Kun valitset minkä tahansa Sarakkeen Data Wrangler -ruudukossa, Yhteenveto-paneeli päivittää ja näyttää kuvaavat tilastotiedot kyseisestä sarakkeesta. Nopeat merkitykselliset tiedot jokaisesta sarakkeesta ovat myös sen otsikossa.

Vihje

Sarakekohtaiset tilastotiedot ja visualisoinnit (sekä Yhteenveto-paneelissa että sarakeotsikoissa) riippuvat sarakkeen tietotyypistä. Esimerkiksi numeerisen sarakkeen lokeroitu histogrammi näkyy sarakeotsikossa vain, jos sarake on muuntettu numeeriseksi tyypiksi, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy Tietojen Wrangler-näyttöruudukko ja Yhteenveto-paneeli.

Tietojenpuhdistustoimintojen selaaminen

Hakukelpoisia tietojen puhdistusvaiheita on Toiminnot-paneelissa. Toiminnot-paneelissa tietojen siistimisvaiheen valinta kehottaa sinua antamaan kohdesarakkeen tai -sarakkeet sekä kaikki vaiheen suorittamiseen tarvittavat parametrit. Esimerkiksi kehote skaalata sarake numeerisesti edellyttää uutta arvoaluetta, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy Tietojen Wrangler-toiminnot -paneeli.

Vihje

Voit käyttää pienempää toimintovalikoimaa kunkin sarakeotsikon valikosta seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Tieto wrangler-toiminto, joka voidaan käyttää sarakeotsikon valikosta.

Toimintojen esikatselu ja käyttöönotto

Data Wrangler -näyttöruudukko esikatsele automaattisesti valitun toiminnon tuloksia, ja vastaava koodi näkyy automaattisesti ruudukon alla olevassa paneelissa. Vahvista esikatselemasi koodi valitsemalla kummassakin kohdassa Käytä. Jos haluat poistaa esikatselun koodin ja kokeilla uutta toimintoa, valitse Hylkää tässä näyttökuvassa esitetyllä tavalla:

Näyttökuva, joka näyttää käynnissä olevan Data Wrangler -toiminnon.

Kun toiminto on käytössä, Tietojen Wrangler-toiminnon näyttämisen ruudukko ja yhteenvetotilastot päivittyvät tulosten mukaisesti. Koodi näkyy varattujen toimintojen käynnissä olevassa luettelossa, joka sijaitsee "Puhdistusvaiheet"-paneelissa, kuten tässä näyttökuvassa esitetään:

Näyttökuva, jossa näkyy käytössä oleva Data Wrangler -toiminto.

Vihje

Voit aina kumota viimeisimmän käytössä olevan vaiheen. Siistimisvaiheet -paneelissa näkyy roskakorikuvake, jos viet kohdistimen viimeksi käytetyn vaiheen päälle, kuten tässä näyttökuvassa on esitetty:

Näyttökuva, joka näyttää kumottavan Tietojen Wrangler-toiminnon.

Tässä taulukossa on yhteenveto toiminnoista, joita Data Wrangler tällä hetkellä tukee:

Toiminto Kuvaus
Lajittele Lajittele sarake nousevassa tai laskevassa järjestyksessä
Suodata Suodata rivit yhden tai useamman ehdon perusteella
Yksi kuuma koodaus Luo uudet sarakkeet kullekin olemassa olevan sarakkeen yksilöivälle arvolle, mikä ilmaisee, että kyseiset arvot riviä kohti ovat olemassa tai eivät ole.
Yhden kuuma koodaus ja erotin Luokittaiset ja jaetut koodaustiedot erottimen avulla
Muuta saraketyyppiä Sarakkeen tietotyypin muuttaminen
Sarakkeiden pudottaminen Yhden tai useamman sarakkeen poistaminen
Valitse sarake Valitse vähintään yksi sarake ja poista loput
Sarakkeen nimeäminen uudelleen Sarakkeen nimeäminen uudelleen
Jätä puuttuvat arvot pois Poista rivit, joilla on puuttuvia arvoja
Rivien kaksoiskappaleiden pudottaminen Pudota kaikki rivit, joilla on arvojen kaksoiskappaleita yhdessä tai useammassa sarakkeessa
Täytä puuttuvat arvot Korvaa solut puuttuvista arvoista uudella arvolla
Etsi ja korvaa Korvaa solut tarkalla vastaavalla mallilla
Ryhmittely sarakkeen ja koosteen mukaan Ryhmittely sarakkeen arvojen ja koostetulosten mukaan
Stripin välilyönnit Poista välilyönnit tekstin alusta ja lopusta
Tekstin jakaminen Jaa sarake useisiin sarakkeisiin käyttäjän määrittämän erottimen perusteella
Muunna teksti pieniksi kirjaimiksi Muunna teksti pieniksi kirjaimiksi
Muunna teksti isoilla kirjaimilla Muunna teksti ISOILLA KIRJAIMILLA
Skaalaa minimi-/maksimiarvot Skaalaa numeerinen sarake minimi- ja maksimiarvon välille
Flash-täyttö Luo uusi sarake automaattisesti olemassa olevasta sarakkeesta johdettujen esimerkkien perusteella

Näytön muokkaaminen

Voit milloin tahansa mukauttaa -käyttöliittymää Data Wrangler -näyttöruudukon yläpuolella olevan työkalurivin Näkymät-välilehdellä. Tämä voi piilottaa tai näyttää eri ruutuja asetusten ja näytön koon mukaan seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Tietojen Wrangler -valikko näyttönäkymän mukauttamista varten.

Koodin tallentaminen ja vieminen

Data Wrangler -näyttöruudukon yläpuolella olevalla työkalurivillä on vaihtoehtoja luodun koodin tallentamiseksi. Voit kopioida koodin leikepöydälle tai viedä sen muistikirjaan funktiona. Koodin vienti sulkee Data Wranglerin ja lisää uuden funktion muistikirjan koodisoluun. Voit myös ladata puhdistetun DataFramen csv-tiedostona.

Vihje

Data Wrangler luo koodin, jota käytetään vain, kun suoritat uuden solun manuaalisesti, eikä se korvaa alkuperäistä DataFrame-kehystä tässä näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyvät vaihtoehdot koodin viemiseksi Data Wranglerissa.

Voit sitten suorittaa viedyn koodin seuraavassa näyttökuvassa esitetyllä tavalla:

Näyttökuva, jossa näkyy Data Wranglerin luoma koodi muistikirjassa.