Johdanto
Ei ole yllättävää, että tietotieteilijän rooliin liittyy ensisijaisesti tietojen tutkiminen ja analysointi. Vaikka tietoanalyysin lopputulos voi olla raportti tai koneoppimismalli, tutkijat aloittavat tietojen käytön siten, että Python on suosituin tietojen käsittelyyn käytetty ohjelmointikieli.
Jo vuosikymmeniä kestäneen avoimen lähdekoodin kehityksen jälkeen Python tarjoaa laajoja toimintoja ja tehokkaita tilastollisia ja numeerisia kirjastoja:
- NumPy ja Pandas yksinkertaistavat tietojen analysointia ja käsittelyä
- Matplotlib tarjoaa houkuttelevia tietojen visualisointeja
- Scikit-learn tarjoaa yksinkertaisen ja tehokkaan ennakoivan tietoanalyysin
- TensorFlow ja PyTorch toimittavat koneoppimista ja syväoppimisominaisuuksia
Esimerkkiskenaario
Yleensä tietoanalyysiprojekti on suunniteltu luomaan merkityksellisiä tietoja tietystä skenaariosta tai testaamaan hypoteesi.
Oletetaan esimerkiksi, että yliopistoprofessori kerää tietoa opiskelijoistaan, kuten siihen osallistuneiden luentojen määrän, opiskelutunnit ja lukukauden lopussa saavutetut lopulliset arvosanat. Professori voisi analysoida tietoja selvittääkseen, onko opiskelijan opiskelemisen määrän ja hänen saavuttamansa lopullisen arvosanan välillä suhde. Professori saattaa käyttää tietoja hypoteesin testaamiseen, että vain ne opiskelijat, jotka opiskelevat vähimmäistuntien määrän, voivat odottaa saavuttavansa läpäisyarvon.
Mitä teemme?
Tässä koulutusmoduulissa tutkimme ja analysoimme kuvitteellisen yliopistoluokan arvosanatietoja professorin näkökulmasta. Käytämme Jupyter-muistikirjoja ja useita Python-työkaluja ja -kirjastoja tietojoukon puhdistamiseen, tilastollisten tekniikoiden käyttöön, jotta voimme testata useita oletuksia tiedoista ja visualisoida tiedot muuttujien välisten suhteiden määrittämiseksi.