Memvisualisasikan data
Ilmuwan data memvisualisasikan data untuk memahaminya dengan lebih baik. Mereka mungkin memindai data mentah, memeriksa langkah-langkah ringkasan seperti rata-rata, atau membuat grafik data. Grafik adalah cara yang kuat untuk memvisualisasikan data, dan ilmuwan data sering menggunakan grafik untuk membedakan pola yang cukup kompleks dengan cepat.
Mewakili data secara visual
Grafik dilakukan untuk memberikan penilaian kualitatif yang cepat terhadap data kami, yang dapat berguna untuk memahami hasil, menemukan nilai outlier, memeriksa bagaimana angka didistribusikan, dan sebagainya.
Meskipun terkadang kita tahu sebelumnya jenis grafik apa yang paling berguna, di lain waktu kita akan menggunakan grafik dalam cara yang eksploratif. Untuk memahami kekuatan visualisasi data, pertimbangkan data berikut: lokasi (x,y) mobil yang mengemudi sendiri. Dalam bentuk mentah data, sulit untuk melihat pola nyata. Rata-rata atau rata-rata memberi tahu kami bahwa jalur mobil berpusat di sekitar x=0,2 dan y=0,3, dan rentang angka tampaknya antara sekitar -2 dan 2.
| Waktu | Lokasi-X | Lokasi-Y |
|---|---|---|
| 0 | 0 | 2 |
| 1 | 1,682942 | 1,080605 |
| 2 | 1,818595 | -0,83229 |
| 3 | 0,28224 | -1,97998 |
| 4 | -1,5136 | -1,30729 |
| 5 | -1,91785 | 0,567324 |
| 6 | -0,55883 | 1,920341 |
| 7 | 1,313973 | 1,507805 |
| 12 | 0,00001 | 0,00001 |
| 13 | 0,840334 | 1,814894 |
| 14 | 1,981215 | 0,273474 |
| 15 | 1,300576 | -1,51938 |
| 16 | -0,57581 | -1,91532 |
| 17 | -1,92279 | -0,55033 |
| 18 | -1,50197 | 1,320633 |
| 19 | 0,299754 | 1,977409 |
| 20 | 1,825891 | 0,816164 |
Jika sekarang kita memplot Lokasi-X dari waktu ke waktu, kita dapat melihat bahwa kita tampaknya memiliki beberapa nilai yang hilang antara waktu 7 dan 12.
Jika kita grafik X versus Y, kita berakhir dengan peta di mana mobil telah dikendarai. Sangat jelas bahwa mobil telah mengemudi dalam lingkaran dan pada titik tertentu melaju ke tengah lingkaran itu.
Grafik tidak terbatas pada plot sebar 2D seperti yang di atas. Mereka dapat digunakan untuk mengeksplorasi aspek lain dari data Anda; misalnya, proporsi (bagan pai dan grafik batang bertumpuk) dan bagaimana data disebarkan (histogram dan plot kotak dan kumis). Seringkali, ketika kita mencoba memahami data atau hasil mentah, kita mungkin bereksperimen dengan berbagai jenis grafik sampai kita menemukan salah satu yang menjelaskan data dengan cara yang intuitif secara visual.