Wprowadzenie

2 min

Nic dziwnego, że rola analityka danych obejmuje przede wszystkim eksplorowanie i analizowanie danych. Chociaż wynikiem końcowym analizy danych może być raport lub model uczenia maszynowego, analitycy danych rozpoczynają pracę z danymi, a język Python jest najpopularniejszym językiem programowania używanym przez analityków danych do pracy z danymi.

Po dziesięcioleciach opracowywania rozwiązań typu open source język Python udostępnia rozbudowane funkcje z zaawansowanymi bibliotekami statystycznymi i liczbowymi:

Biblioteki NumPy i Pandas upraszczają analizowanie i manipulowanie danymi
Biblioteka Matplotlib udostępnia atrakcyjne wizualizacje danych
Scikit-learn oferuje prostą i efektywną analizę danych predykcyjnych
TensorFlow i PyTorch zapewniają możliwości uczenia maszynowego i uczenia głębokiego

Przykładowy scenariusz

Zazwyczaj projekt analizy danych jest przeznaczony do ustanawiania szczegółowych informacji dotyczących konkretnego scenariusza lub testowania hipotezy.

Załóżmy na przykład, że profesor uniwersytecki zbiera dane o swoich uczniach, w tym liczbę uczęszczanych wykładów, godziny spędzonych na studiach i ostatnią ocenę osiągniętą na koniec egzaminu. Profesor może przeanalizować dane, aby ustalić, czy istnieje relacja między ilością studiów, którą podejmuje student, a ostateczną oceną, jaką osiągną. Profesor może wykorzystać dane do przetestowania hipotezy, że tylko studenci, którzy uczą się przez minimum godzin, mogą spodziewać się zaliczenia.

Diagram przedstawiający czas wykładu i nauki związany z ocenami uczniów.

Co zrobimy?

W tym module szkoleniowym zbadamy i przeanalizujemy oceny dla fikcyjnej grupy uniwersyteckiej z punktu widzenia profesora. Użyjemy notesów Jupyter i kilku narzędzi i bibliotek języka Python, aby wyczyścić zestaw danych, zastosować techniki statystyczne, aby przetestować kilka hipotez dotyczących danych i zwizualizować dane w celu określenia relacji między zmiennymi.

Opinia

Czy ta strona była pomocna?