Tietojen profiloiminen Power BI:ssä
Tietojen profiloinnissa on kyse tietojen vivahteista: poikkeamien määrittämisestä, pohjana olevien tietorakenteiden tutkimisesta ja kehittämisestä sekä kyselyiden suorittamisesta tilastotiedoille, kuten rivimäärille, arvojakaumille, vähimmäis- ja enimmäisarvoille, keskiarvoille ja niin edelleen. Tämä käsite on tärkeä, koska sen avulla voit muotoilla ja järjestää tietoja niin, että tietojen käsitteleminen ja tietojen jakamisen tunnistaminen on mutkatonta. Tämän ansiosta tietojen käsittely edustassa raportin elementtien kehittämiseksi on lähes vaivatonta.
Oletetaan, että kehität raportteja organisaation myyntitiimille. Et ole varma siitä, miten tiedot on jäsennetty ja miten ne sisältyvät taulukoihin, joten haluat profiloida tiedot taustalla ennen visualisointien kehittämisen aloittamista. Power BI:ssä on luontaisia toimintoja, jotka tekevät näistä tehtävistä käyttäjäystävällisiä ja yksinkertaisia.
Tietorakenteiden tarkasteleminen
Ennen kuin aloitat tietojen tarkastelemisen Power Query -editorissa, tutustu ensin pohjana oleviin tietorakenteisiin, joihin tiedot on järjestetty. Voit tarkastella nykyistä semanttista mallia Power BI Desktop Malli-välilehdessä.
Malli-välilehdessä voit muokata tiettyjä sarakkeen ja taulukon ominaisuuksia valitsemalla taulukon tai sarakkeet, ja voit muuntaa tiedot käyttämällä Muunna tiedot -painiketta, jonka avulla voit Power Query -editori. Lisäksi voit hallita, luoda, muokata ja poistaa eri taulukoiden välisiä suhteita käyttämällä Suhteiden hallinta, joka sijaitsee valintanauhassa.
Tietojen poikkeavuuksien ja tilastotietojen etsiminen
Kun olet luonut yhteyden tietolähteeseen ja valinnut Muunna tiedot, sinut siirretään Power Query Editoriin, jossa voit määrittää, onko tiedoissa poikkeavuuksia. Tietojen poikkeavuudet ovat tietojen poikkeavia arvoja. Määrittämällä poikkeavuudet voit tunnistaa, miltä tietojesi normaalijakauma näyttää, ja määrittää, onko tiettyjä arvopisteitä tutkittava tarkemmin. Power Query -editori määrittää tietojen poikkeamat Sarakkeen jakelu -ominaisuuden avulla.
Valitse valintanauhasta Näytä , ja tietojen esikatselu -kohdassa voit valita useista vaihtoehdoista. Jos haluat ymmärtää tietojen poikkeavuuksia ja tilastotietoja, valitse Sarakkeen jakelu-, Sarakkeen laatu- ja Sarakeprofiili-vaihtoehdot . Seuraavassa kuvassa näytetään näkyviin tulevat tilastotiedot.
Sarakkeen laatu ja Sarakkeen jakelu näkyvät kaavioissa tietosarakkeiden yläpuolella. Sarakkeen laatu näyttää prosenttiosuudet tiedoista, jotka ovat kelvollisia, virheelliset ja tyhjiä. Ihanteellisessa tilanteessa 100 prosenttia tiedoista on kelvollisia.
Huomautus
Power Query tutkii oletusarvoisesti tietojoukon 1 000 ensimmäistä riviä. Jos haluat muuttaa tätä, valitse profilointitila tilariviltä ja valitse Sarakkeen profilointi perustuu koko tietosarjaan. ]
Sarakkeen jakelu näyttää tietojen jakautumisen sarakkeessa sekä erillisten ja yksilöllisten arvojen määrän. Kummatkin voivat kertoa yksityiskohtia tietomääristä. Erilliset arvot ovat kaikki sarakkeen eri arvoja, mukaan lukien kaksoiskappaleet ja tyhjäarvot, kun taas yksilölliset arvot eivät sisällä kaksoiskappaleita tai tyhjäarvoja. Tästä syystä erillinen tässä taulukossa kertoo arvojen kokonaismäärän, kun taas yksilöllinen ilmaisee, kuinka monta näistä arvoista esiintyy vain kerran.
Sarakeprofiilin avulla voit tarkastella tarkemmin tilastotietoja ensimmäisten 1 000 tietorivin sarakkeissa. Tässä sarakkeessa on useita eri arvoja, kuten rivien määrä, mikä on tärkeää tarkistettaessa, onnistuiko tietojesi tuonti. Jos alkuperäisessä tietokannassa oli esimerkiksi 100 riviä, voit tämän rivimäärän avulla vahvistaa, että 100 riviä todella tuotiin. Lisäksi tämä rivimäärä näyttää, montako riviä Power BI on todentanut poikkeaviksi arvoiksi, tyhjiksi riveiksi ja merkkijonoiksi, sekä vähimmäis- ja enimmäisarvot, jotka kertovat sarakkeen pienimmän ja suurimman arvon. Tämä ero on erityisen tärkeä numeeristen tietojen kohdalla, koska se ilmoittaa sinulle välittömästi, jos enimmäisarvosi on suurempi kuin yrityksen määrittämä enimmäisarvo. Tämä arvo kiinnittää huomiosi näihin arvoihin, mikä tarkoittaa sitä, että voit keskittää ponnistelusi sukeltaessasi syvemmälle tietoihin. Jos tiedot sijaitsevat tekstisarakkeessa, kuten edellisessä kuvassa, vähimmäisarvo on ensimmäinen arvo ja enimmäisarvo on viimeinen arvo aakkosjärjestyksessä.
Lisäksi Arvon jakauma -kaavio kertoo kyseisen sarakkeen kunkin erillisen arvon määrät. Kun tarkastelet edellisessä kuvassa olevaa kaaviota, huomaa, että arvojakauma ilmaisee, että "Anthony Gross" esiintyy eniten SalesPerson-sarakkeessa ja että "Lily Code" esiintyy vähiten. Nämä tiedot ovat erityisen tärkeitä, koska ne tunnistavat poikkeavat arvot. Jos jokin arvo esiintyy paljon muita sarakkeen arvoja enemmän, Arvojakauma-ominaisuuden avulla voit paikantaa sijainnin, josta voit aloittaa perehtymisen taustalla oleviin syihin.
Numeerinen sarake Sarakkeen tilastotiedot sisältää myös sen, kuinka monta nollaa ja tyhjäarvoa on olemassa, sekä sarakkeen keskiarvon, sarakkeen arvojen keskihajonnan sekä parillisten ja parittomien arvojen määrän sarakkeessa. Nämä tilastotiedot antavat käsityksen tietojen jakautumisesta sarakkeessa, ja ne ovat tärkeitä, koska ne tekevät yhteenvedon sarakkeen tiedoista ja toimivat aloituspisteenä poikkeavien arvojen määrittämiselle.
Tarkastellessasi esimerkiksi laskutietoja huomaat, että Arvojakauma-kaaviossa näkyy, että muutamat SalesPerson-sarakkeen myyjät esiintyvät tiedoissa yhtä monta kertaa. Lisäksi huomaat saman tilanteen Voitto-sarakkeessa ja myös muutamissa muissa taulukoissa. Tutkimuksesi aikana havaitsevat, että käyttämäsi tiedot olivat virheellisiä tietoja ja että ne täytyy päivittää, joten viimeistelet päivityksen välittömästi. Ilman tämän kaavion tarkastelemista et ehkä olisi huomannut tätä virhettä niin nopeasti, ja tästä syystä arvojakauma on tärkeä.
Kun olet suorittanut muokkauksesi Power Query -editori ja olet valmis aloittamaan visualisointien luomisen, palaa aloitussivulle Power Query -editori valintanauhasta. Valitse Sulje & Käytä, jolloin pääset Power BI Desktop jolloin myös mahdolliset sarakkeen muutokset ja muunnokset otetaan käyttöön.
Olet nyt määrittänyt elementit, joiden avulla voit profiloida tietoja Power BI:ssä. Niitä ovat esimerkiksi tietojen lataaminen Power BI:hin, sarakeominaisuuksien kysely, jotta saadaan selkeyttä ja voidaan tehdä lisämuokkaus sarakkeiden tietojen tyyppiin ja muotoon, tietojen poikkeavuudet ja tarkastella tilastotietoja Power Query -editori. Näiden tietojen saat mahdollisuuden tutkia tietojasi tehokkaasti.