वास्तविक दुनिया के डेटा की जांच करें

Complete

शैक्षिक सामग्री में प्रस्तुत डेटा अक्सर उल्लेखनीय रूप से परिपूर्ण होता है, जिसे छात्रों को यह दिखाने के लिए डिज़ाइन किया गया है कि चर के बीच स्पष्ट संबंध कैसे खोजें। "वास्तविक दुनिया" डेटा थोड़ा कम सरल है।

"वास्तविक दुनिया" डेटा की जटिलता के कारण, हमें इसका उपयोग करने से पहले मुद्दों के लिए कच्चे डेटा का निरीक्षण करना होगा।

जैसे, सबसे अच्छा अभ्यास कच्चे डेटा का निरीक्षण करना और उपयोग करने से पहले इसे संसाधित करना है, जो आमतौर पर गलत डेटा बिंदुओं को हटाकर या डेटा को अधिक उपयोगी रूप में संशोधित करके त्रुटियों या मुद्दों को कम करता है।

वास्तविक दुनिया के डेटा मुद्दे

वास्तविक दुनिया के डेटा में कई अलग-अलग मुद्दे हो सकते हैं जो डेटा की उपयोगिता और परिणामों की हमारी व्याख्या को प्रभावित कर सकते हैं।

यह महसूस करना महत्वपूर्ण है कि अधिकांश वास्तविक दुनिया के डेटा उन कारकों से प्रभावित होते हैं जो उस समय दर्ज नहीं किए गए थे। उदाहरण के लिए, हमारे पास इंजन आकार के साथ रेस-कार ट्रैक समय की एक तालिका हो सकती है; लेकिन कई अन्य कारक जो नीचे नहीं लिखे गए थे, जैसे कि मौसम, शायद एक भूमिका भी निभाई। यदि समस्याग्रस्त है, तो हम अक्सर डेटासेट के आकार को बढ़ाकर इन कारकों के प्रभाव को कम कर सकते हैं।

अन्य स्थितियों में, डेटा बिंदु जो स्पष्ट रूप से अपेक्षित से बाहर हैं - जिसे "आउटलेयर" के रूप में भी जाना जाता है - कभी-कभी विश्लेषण से सुरक्षित रूप से हटाया जा सकता है, हालांकि हमें ध्यान रखना चाहिए कि वास्तविक अंतर्दृष्टि प्रदान करने वाले डेटा बिंदुओं को न हटाएं।

वास्तविक दुनिया के डेटा में एक और आम मुद्दा पूर्वाग्रह है। पूर्वाग्रह कुछ प्रकार के मूल्यों को दूसरों की तुलना में अधिक बार चुनने की प्रवृत्ति को संदर्भित करता है जो अंतर्निहित आबादी, या "वास्तविक दुनिया" को गलत तरीके से प्रस्तुत करता है। डेटा कहां से आया है, इसके बारे में बुनियादी ज्ञान को ध्यान में रखते हुए डेटा की खोज करके पूर्वाग्रह को कभी-कभी पहचाना जा सकता है।

वास्तविक दुनिया के डेटा में हमेशा समस्याएं होंगी, लेकिन डेटा वैज्ञानिक अक्सर इन मुद्दों को दूर कर सकते हैं:

  • अनुपलब्ध मानों और बुरी तरह से रिकॉर्ड किए गए डेटा की जाँच करना.
  • स्पष्ट आउटलेयर को हटाने पर विचार करना।
  • यह जांचना कि वास्तविक दुनिया के कारक उनके विश्लेषण को प्रभावित कर सकते हैं और यह निर्धारित कर सकते हैं कि इन कारकों के प्रभाव को कम करने के लिए उनका डेटासेट आकार काफी बड़ा है या नहीं।
  • पक्षपाती कच्चे डेटा की जाँच करना और यदि पाया जाता है तो पूर्वाग्रह को ठीक करने के लिए उनके विकल्पों पर विचार करना।