Memeriksa data dunia nyata

Selesai

Data yang disajikan dalam materi pendidikan seringkali sangat sempurna, dirancang untuk menunjukkan kepada siswa cara menemukan hubungan yang jelas antara variabel. Data "Dunia nyata" sedikit kurang sederhana.

Karena kompleksitas data "dunia nyata", kita harus memeriksa data mentah untuk masalah sebelum menggunakannya.

Dengan demikian, praktik terbaik adalah memeriksa data mentah dan memprosesnya sebelum digunakan, yang mengurangi kesalahan atau masalah biasanya dengan menghapus titik data yang salah atau memodifikasi data menjadi bentuk yang lebih berguna.

Masalah data dunia nyata

Data dunia nyata dapat berisi banyak masalah berbeda yang dapat memengaruhi utilitas data dan interpretasi hasil kami.

Penting untuk disadari bahwa sebagian besar data dunia nyata dipengaruhi oleh faktor-faktor yang tidak dicatat pada saat itu. Misalnya, kita mungkin memiliki tabel waktu trek mobil balap bersama ukuran mesin; tetapi berbagai faktor lain yang tidak ditulis, seperti cuaca, mungkin juga memainkan peran. Jika bermasalah, kita sering dapat mengurangi pengaruh faktor-faktor ini dengan meningkatkan ukuran himpunan data.

Dalam situasi lain, titik data yang jelas di luar apa yang diharapkan—juga dikenal sebagai "outlier"—terkadang dapat dihapus dengan aman dari analisis, meskipun kita harus berhati-hati untuk tidak menghapus titik data yang memberikan wawasan nyata.

Masalah umum lainnya dalam data dunia nyata adalah bias. Bias mengacu pada kecenderungan untuk memilih jenis nilai tertentu lebih sering daripada yang lain dengan cara yang salah merepresentasikan populasi yang mendasar, atau "dunia nyata". Bias terkadang dapat diidentifikasi dengan menjelajahi data sambil mengingat pengetahuan dasar tentang dari mana data tersebut berasal.

Data dunia nyata akan selalu memiliki masalah, tetapi ilmuwan data sering dapat mengatasi masalah ini dengan:

  • Memeriksa nilai yang hilang dan data yang direkam dengan buruk.
  • Mempertimbangkan untuk menghapus outlier yang jelas.
  • Memeriksa faktor dunia nyata apa yang dapat memengaruhi analisis dan penentuan apakah ukuran himpunan data mereka cukup besar untuk mengurangi dampak faktor-faktor ini.
  • Memeriksa data mentah yang bias dan mempertimbangkan opsinya untuk memperbaiki bias, jika ditemukan.