แสดงข้อมูลเป็นภาพ
นักวิทยาศาสตร์ข้อมูลแสดงภาพข้อมูลเพื่อทําความเข้าใจให้ดีขึ้น พวกเขาอาจสแกนข้อมูลดิบ ตรวจสอบหน่วยวัดสรุป เช่น ค่าเฉลี่ย หรือกราฟข้อมูล กราฟเป็นวิธีที่มีประสิทธิภาพในการแสดงภาพข้อมูล และนักวิทยาศาสตร์ข้อมูลมักใช้กราฟเพื่อมองเห็นรูปแบบที่ซับซ้อนในระดับปานกลางได้อย่างรวดเร็ว
แสดงข้อมูลด้วยภาพ
กราฟจะทําเพื่อให้การประเมินเชิงคุณภาพที่รวดเร็วของข้อมูลของเราซึ่งจะเป็นประโยชน์สําหรับการทําความเข้าใจผลลัพธ์การค้นหาค่าที่น้อยกว่าตรวจสอบว่ามีการแจกจ่ายตัวเลขอย่างไรและอื่น ๆ
ในขณะที่บางครั้งเราทราบล่วงหน้าว่ากราฟชนิดใดมีประโยชน์มากที่สุด แต่บางครั้งเราใช้กราฟในรูปแบบการสํารวจ เมื่อต้องการทําความเข้าใจประสิทธิภาพของการแสดงภาพข้อมูล ให้พิจารณาข้อมูลต่อไปนี้: ตําแหน่งที่ตั้ง (x,y) ของรถยนต์ที่ขับเคลื่อนด้วยตนเอง ในฟอร์มดิบของข้อมูล เป็นเรื่องยากที่จะเห็นรูปแบบจริงใด ๆ ค่าเฉลี่ยหรือค่าเฉลี่ยบอกเราว่าเส้นทางของรถอยู่ที่ประมาณ x=0.2 และ y=0.3 และช่วงของตัวเลขปรากฏว่าอยู่ระหว่าง -2 และ 2
| เวลา | Location-X | Location-Y |
|---|---|---|
| 0 | 0 | 2 |
| 1 | 1.682942 | 1.080605 |
| 2 | 1.818595 | -0.83229 |
| 3 | 0.28224 | -1.97998 |
| 4 | -1.5136 | -1.30729 |
| 5 | -1.91785 | 0.567324 |
| 6 | -0.55883 | 1.920341 |
| 7 | 1.313973 | 1.507805 |
| 12 | 0.00001 | 0.00001 |
| 13 | 0.840334 | 1.814894 |
| 14 | 1.981215 | 0.273474 |
| 15 | 1.300576 | -1.51938 |
| 16 | -0.57581 | -1.91532 |
| 17 | -1.92279 | -0.55033 |
| 18 | -1.50197 | 1.320633 |
| 19 | 0.299754 | 1.977409 |
| 20 | 1.825891 | 0.816164 |
ถ้าตอนนี้เราลงจุด Location-X เมื่อเวลาผ่านไป เราจะเห็นว่าเราเห็นว่าค่าบางอย่างหายไประหว่างเวลา 7 และ 12
ถ้าเรากราฟ X เทียบกับ Y เราจะลงเอยด้วยแผนที่ที่รถขับเคลื่อน เห็นได้ชัดเจนว่ารถขับในวงกลมและในบางจุดขับรถไปที่ศูนย์กลางของวงกลมนั้น
กราฟไม่จํากัดเฉพาะแผนภูมิกระจาย 2 มิติเช่นเดียวกับที่กล่าวมาข้างต้น ซึ่งสามารถใช้เพื่อสํารวจลักษณะอื่น ๆ ของข้อมูลของคุณ ตัวอย่างเช่น สัดส่วน (แผนภูมิวงกลมและกราฟแท่งแบบเรียงซ้อน) และวิธีการกระจายข้อมูล (ฮิสโทแกรมและแผนภูมิบ็อกซ์และวิสเกอร์) บ่อยครั้งที่เราพยายามทําความเข้าใจข้อมูลดิบหรือผลลัพธ์ เราอาจทดลองกราฟชนิดต่างๆ จนกว่าเราจะเจอกราฟที่อธิบายข้อมูลในลักษณะที่ใช้งานง่าย