Bevezetés
Nem meglepő módon az adatelemző szerepe elsősorban az adatok feltárását és elemzését foglalja magában. Bár az adatelemzés végeredménye lehet egy jelentés vagy egy gépi tanulási modell, az adattudósok az adatokkal kezdik meg a munkájukat, mivel a Python a legnépszerűbb programozási nyelv adatelemzője, amelyet az adatokkal való munkához használnak.
Több évtizedes nyílt forráskódú fejlesztés után a Python hatékony statisztikai és numerikus kódtárak széles körű funkcióit biztosítja:
- A NumPy és a Pandas leegyszerűsíti az adatok elemzését és manipulálását
- A Matplotlib vonzó adatvizualizációkat biztosít
- A Scikit-learn egyszerű és hatékony prediktív adatelemzést kínál
- A TensorFlow és a PyTorch gépi tanulási és mély tanulási képességeket biztosít
Példaforgatókönyv
Az adatelemzési projektek általában egy adott forgatókönyvre vonatkozó megállapítások létrehozására vagy egy hipotézis tesztelésére szolgálnak.
Tegyük fel például, hogy egy egyetemi tanár adatokat gyűjt a diákjairól, beleértve a részt vett előadások számát, a tanulással töltött órákat és a záróvizsga végén elért utolsó érdemjegyet. A professzor elemezhetné az adatokat, hogy megállapítsa, van-e kapcsolat a tanuló által vállalt tanulmányi mennyiség és az általuk elért végső érdemjegy között. A professzor felhasználhatja az adatokat egy olyan hipotézis tesztelésére, amely szerint csak azok a diákok érhetik el az érdemjegyeket, akik minimális óraszámban tanulnak.
Mit fogunk csinálni?
Ebben a képzési modulban egy fiktív egyetemi osztály osztályadatait fogjuk megvizsgálni és elemezni egy professzor szemszögéből. Jupyter-jegyzetfüzeteket és több Python-eszközt és kódtárat fogunk használni az adatkészlet megtisztításához, statisztikai technikák alkalmazásával teszteljük az adatokkal kapcsolatos számos hipotézist, és vizualizáljuk az adatokat a változók közötti kapcsolatok meghatározásához.