डेटा विज़ुअलाइज़ करें
डेटा वैज्ञानिक इसे बेहतर ढंग से समझने के लिए डेटा की कल्पना करते हैं। वे कच्चे डेटा को स्कैन कर सकते हैं, औसत जैसे सारांश उपायों की जांच कर सकते हैं या डेटा को ग्राफ कर सकते हैं। ग्राफ़ डेटा को विज़ुअलाइज़ करने का एक शक्तिशाली साधन है, और डेटा वैज्ञानिक अक्सर ग्राफ़ का उपयोग मध्यम जटिल पैटर्न को जल्दी से समझने के लिए करते हैं।
डेटा को नेत्रहीन रूप से प्रस्तुत करना
रेखांकन हमारे डेटा का एक तेज़ गुणात्मक मूल्यांकन प्रदान करने के लिए किया जाता है, जो परिणामों को समझने, बाहरी मूल्यों का पता लगाने, संख्याओं को वितरित करने के तरीके की जांच करने आदि के लिए उपयोगी हो सकता है।
जबकि कभी-कभी हम समय से पहले जानते हैं कि किस प्रकार का ग्राफ सबसे उपयोगी होगा, दूसरी बार हम ग्राफ का उपयोग खोजपूर्ण तरीके से करते हैं। डेटा विज़ुअलाइज़ेशन की शक्ति को समझने के लिए, निम्नलिखित डेटा पर विचार करें: सेल्फ-ड्राइविंग कार का स्थान (x, y)। डेटा के कच्चे रूप में, किसी भी वास्तविक पैटर्न को देखना कठिन है। माध्य या औसत हमें बताता है कि कार का पथ x = 0.2 और y = 0.3 के आसपास केंद्रित था, और संख्याओं की सीमा लगभग -2 और 2 के बीच प्रतीत होती है।
| समय | Location-X | Location-Y |
|---|---|---|
| 0 | 0 | 2 |
| 1 | 1.682942 | 1.080605 |
| 2 | 1.818595 | -0.83229 |
| 3 | 0.28224 | -1.97998 |
| 4 | -1.5136 | -1.30729 |
| 5 | -1.91785 | 0.567324 |
| 6 | -0.55883 | 1.920341 |
| 7 | 1.313973 | 1.507805 |
| 12 | 0.00001 | 0.00001 |
| 13 | 0.840334 | 1.814894 |
| 14 | 1.981215 | 0.273474 |
| 15 | 1.300576 | -1.51938 |
| 16 | -0.57581 | -1.91532 |
| 17 | -1.92279 | -0.55033 |
| 18 | -1.50197 | 1.320633 |
| 19 | 0.299754 | 1.977409 |
| 20 | 1.825891 | 0.816164 |
यदि हम अब समय के साथ Location-X प्लॉट करते हैं, तो हम देख सकते हैं कि हमारे पास 7 और 12 के बीच कुछ लापता मान हैं।
यदि हम X बनाम Y का ग्राफ़ करते हैं, तो हम एक मानचित्र के साथ समाप्त होते हैं जहाँ कार ने ड्राइव किया है। यह तुरंत स्पष्ट है कि कार एक सर्कल में चल रही है और किसी बिंदु पर उस सर्कल के केंद्र में चली गई है।
ग्राफ़ ऊपर की तरह 2D स्कैटर प्लॉट तक सीमित नहीं हैं। उनका उपयोग आपके डेटा के अन्य पहलुओं का पता लगाने के लिए किया जा सकता है; उदाहरण के लिए, अनुपात (पाई चार्ट और स्टैक्ड बार ग्राफ़) और डेटा कैसे फैलाया जाता है (हिस्टोग्राम और बॉक्स-एंड-व्हिस्कर प्लॉट)। अक्सर, जब हम कच्चे डेटा या परिणामों को समझने की कोशिश कर रहे होते हैं, तो हम विभिन्न प्रकार के ग्राफ़ के साथ प्रयोग कर सकते हैं जब तक कि हम एक ऐसे ग्राफ़ में नहीं आते हैं जो डेटा को एक नेत्रहीन सहज तरीके से समझाता है।