Johdanto

2 minuuttia

Ei ole yllättävää, että tietotieteilijän rooliin liittyy ensisijaisesti tietojen tutkiminen ja analysointi. Vaikka tietoanalyysin lopputulos voi olla raportti tai koneoppimismalli, tutkijat aloittavat tietojen käytön siten, että Python on suosituin tietojen käsittelyyn käytetty ohjelmointikieli.

Jo vuosikymmeniä kestäneen avoimen lähdekoodin kehityksen jälkeen Python tarjoaa laajoja toimintoja ja tehokkaita tilastollisia ja numeerisia kirjastoja:

NumPy ja Pandas yksinkertaistavat tietojen analysointia ja käsittelyä
Matplotlib tarjoaa houkuttelevia tietojen visualisointeja
Scikit-learn tarjoaa yksinkertaisen ja tehokkaan ennakoivan tietoanalyysin
TensorFlow ja PyTorch toimittavat koneoppimista ja syväoppimisominaisuuksia

Esimerkkiskenaario

Yleensä tietoanalyysiprojekti on suunniteltu luomaan merkityksellisiä tietoja tietystä skenaariosta tai testaamaan hypoteesi.

Oletetaan esimerkiksi, että yliopistoprofessori kerää tietoa opiskelijoistaan, kuten siihen osallistuneiden luentojen määrän, opiskelutunnit ja lukukauden lopussa saavutetut lopulliset arvosanat. Professori voisi analysoida tietoja selvittääkseen, onko opiskelijan opiskelemisen määrän ja hänen saavuttamansa lopullisen arvosanan välillä suhde. Professori saattaa käyttää tietoja hypoteesin testaamiseen, että vain ne opiskelijat, jotka opiskelevat vähimmäistuntien määrän, voivat odottaa saavuttavansa läpäisyarvon.

opiskelija-arvosanoihin liittyvä luento- ja opiskeluaikakaavio.

Mitä teemme?

Tässä koulutusmoduulissa tutkimme ja analysoimme kuvitteellisen yliopistoluokan arvosanatietoja professorin näkökulmasta. Käytämme Jupyter-muistikirjoja ja useita Python-työkaluja ja -kirjastoja tietojoukon puhdistamiseen, tilastollisten tekniikoiden käyttöön, jotta voimme testata useita oletuksia tiedoista ja visualisoida tiedot muuttujien välisten suhteiden määrittämiseksi.

Palaute

Onko tästä sivusta apua?