Pendahuluan

Selesai

Tidak mengherankan, peran seorang ilmuwan data sangat terlibat dalam menjelajahi dan menganalisis data. Meskipun hasil akhir analisis data mungkin merupakan laporan atau model pembelajaran mesin, ilmuwan data memulai pekerjaan mereka dengan data, dengan Python menjadi ilmuwan data bahasa pemrograman paling populer yang digunakan oleh ilmuwan data untuk bekerja dengan data.

Setelah beberapa dekade pengembangan sumber terbuka, Python menyediakan fungsionalitas yang luas dengan pustaka statistik dan numerik yang kuat:

  • NumPy dan Pandas menyederhanakan analisis dan manipulasi data
  • Matplotlib menyediakan visualisasi data yang menarik
  • Scikit-learn menawarkan analisis data prediktif yang sederhana dan efektif
  • TensorFlow dan PyTorch menyediakan pembelajaran mesin dan kemampuan pembelajaran mendalam

Contoh skenario

Biasanya, proyek analisis data dirancang untuk membangun wawasan sekeliling skenario tertentu atau untuk menguji hipotesis.

Misalnya, seorang profesor universitas mengumpulkan data tentang siswa mereka, termasuk jumlah kuliah yang dihadiri, jam yang dihabiskan untuk belajar, dan nilai akhir yang dicapai pada akhir ujian masa jabatan. Profesor dapat menganalisis data untuk menentukan apakah ada hubungan antara jumlah belajar yang dilakukan siswa dan nilai akhir yang mereka capai. Profesor mungkin menggunakan data untuk menguji hipotesis bahwa hanya mahasiswa yang belajar selama beberapa jam yang dapat berharap untuk mencapai nilai kelulusan.

Diagram of lecture and study time related to student grades.

Apa yang akan kita lakukan?

Dalam modul pelatihan ini, kita akan menjelajahi dan menganalisis data kelas untuk kelas universitas fiktif dari sudut pandang profesor. Kita akan menggunakan notebook Jupyter dan beberapa alat dan pustaka Python untuk membersihkan himpunan data, menerapkan teknik statistik untuk menguji beberapa hipotesis tentang data, dan memvisualisasikan data untuk menentukan hubungan antar variabel.