Wprowadzenie

Ukończone

Nic dziwnego, że rola analityka danych obejmuje przede wszystkim eksplorowanie i analizowanie danych. Chociaż wynikiem końcowym analizy danych może być raport lub model uczenia maszynowego, analitycy danych rozpoczynają pracę z danymi, a język Python jest najpopularniejszym językiem programowania używanym przez analityków danych do pracy z danymi.

Po dziesięcioleciach opracowywania rozwiązań typu open source język Python udostępnia rozbudowane funkcje z zaawansowanymi bibliotekami statystycznymi i liczbowymi:

  • Biblioteki NumPy i Pandas upraszczają analizowanie i manipulowanie danymi
  • Biblioteka Matplotlib udostępnia atrakcyjne wizualizacje danych
  • Biblioteka Scikit-learn oferuje prostą i efektywną analizę danych predykcyjnych
  • TensorFlow i PyTorch zapewniają możliwości uczenia maszynowego i uczenia głębokiego

Przykładowy scenariusz

Zazwyczaj projekt analizy danych jest przeznaczony do ustanawiania szczegółowych informacji dotyczących konkretnego scenariusza lub testowania hipotezy.

Załóżmy na przykład, że profesor uniwersytecki zbiera dane o swoich uczniach, w tym liczbę uczęszczanych wykładów, godziny spędzonych na studiach i ostatnią ocenę osiągniętą na koniec egzaminu. Profesor może przeanalizować dane, aby ustalić, czy istnieje relacja między ilością studiów, którą podejmuje student, a ostateczną oceną, jaką osiągną. Profesor może wykorzystać dane do przetestowania hipotezy, że tylko studenci, którzy studiują przez minimalną liczbę godzin, mogą spodziewać się osiągnięcia oceny zejścia.

Diagram of lecture and study time related to student grades.

Co zrobimy?

W tym module szkoleniowym przeanalizujemy i przeanalizujemy dane klasy dla fikcyjnej klasy uniwersyteckiej z punktu widzenia profesora. Użyjemy notesów Jupyter i kilku narzędzi i bibliotek języka Python, aby wyczyścić zestaw danych, zastosować techniki statystyczne, aby przetestować kilka hipotez dotyczących danych i zwizualizować dane w celu określenia relacji między zmiennymi.