Menjelajahi data dengan NumPy dan Pandas

Selesai

Ilmuwan data dapat menggunakan berbagai alat dan teknik untuk menjelajahi, memvisualisasikan, dan memanipulasi data. Salah satu cara paling umum ketika ilmuwan data bekerja dengan data adalah dengan menggunakan bahasa Python dan beberapa paket tertentu untuk pemrosesan data.

Apa itu NumPy?

NumPy adalah pustaka Python yang menyediakan fungsionalitas sebanding dengan alat matematika seperti MATLAB dan R. Meskipun NumPy secara signifikan menyederhanakan pengalaman pengguna, NumPy juga menawarkan fungsi matematika yang komprehensif.

Apa itu Pandas?

Pandas adalah pustaka Python yang sangat populer untuk analisis dan manipulasi data. Pandas seperti aplikasi spreadsheet untuk Python, menyediakan fungsionalitas yang mudah digunakan untuk tabel data.

Diagram of Pandas DF.

Menjelajahi data di buku catatan Jupyter

Buku catatan Jupyter adalah cara populer untuk menjalankan skrip dasar menggunakan browser web Anda. Biasanya, buku catatan ini adalah halaman web tunggal, dipecah menjadi bagian teks dan bagian kode yang dijalankan di server, bukan di mesin lokal Anda. Dengan menjalankan kode di notebook Jupyter di server, Anda bisa memulai dengan cepat tanpa perlu menginstal Python atau alat lain di komputer lokal Anda.

Menguji hipotesis

Eksplorasi dan analisis data biasanya merupakan proses berulang, di mana ilmuwan data mengambil sampel data dan melakukan jenis tugas berikut untuk menganalisisnya dan menguji hipotesis:

  • Bersihkan data untuk menangani kesalahan, nilai yang hilang, dan masalah lainnya.
  • Menerapkan teknik statistik untuk memahami data lebih baik dan bagaimana sampel diharapkan dapat mewakili populasi data dunia nyata, memungkinkan variasi acak.
  • Visualisasikan data untuk menentukan hubungan antara variabel, dan dalam kasus proyek pembelajaran mesin, identifikasi fitur yang berpotensi memprediksi label.
  • Memperbaiki hipotesis dan mengulangi prosesnya.