Introducere
Fărăsurprisingly, rolul unui om de știință de date implică în principal explorarea și analizarea datelor. Deși rezultatul final al analizei de date poate fi un raport sau un model de învățare programată, oamenii de știință de date încep să lucreze cu date, cu Python fiind cel mai popular limbaj de programare a datelor utilizate de oamenii de știință pentru lucrul cu date.
După decenii de dezvoltare open-source, Python oferă o funcționalitate extinsă cu biblioteci statistice și numerice puternice:
- NumPy și Panda simplifică analizarea și manipularea datelor
- Matplotlib oferă vizualizări de date atractive
- Scikit-learn oferă analize simple și eficiente de date predictive
- TensorFlow și PyTorch furnizează învățare programată și capacități de învățare profundă
Exemplu de scenariu
De obicei, un proiect de analiză a datelor este proiectat să stabilească detalii despre un anumit scenariu sau să testeze o ipoteză.
De exemplu, să presupunem că un profesor universitar colectează date despre elevii/studenții lor, inclusiv numărul de cursuri frecventate, orele petrecute în studiu și nota finală obținută la sfârșitul examenului. Profesorul ar putea analiza datele pentru a determina dacă există o relație între volumul de studiu al unui elev/student se angajează și nota finală pe care o obțin. Profesorul ar putea folosi datele pentru a testa o ipoteză pe care doar elevii care studiază pentru un număr minim de ore se pot aștepta să obțină o notă de trecere.
Ce vom face?
În acest modul de instruire, vom explora și vom analiza datele notelor pentru o clasă universitară fictivă din punctul de vedere al profesorului. Vom utiliza blocnotesuri Jupyter și mai multe instrumente și biblioteci Python pentru a curăța setul de date, a aplica tehnici statistice pentru a testa mai multe ipoteze despre date și a vizualiza datele pentru a determina relațiile dintre variabile.