परिचय

Complete

अप्रत्याशित रूप से, डेटा वैज्ञानिक की भूमिका में मुख्य रूप से डेटा की खोज और विश्लेषण शामिल है। यद्यपि डेटा विश्लेषण का अंतिम परिणाम एक रिपोर्ट या मशीन लर्निंग मॉडल हो सकता है, डेटा वैज्ञानिक डेटा के साथ अपना काम शुरू करते हैं, पायथन सबसे लोकप्रिय प्रोग्रामिंग भाषा डेटा वैज्ञानिक डेटा के साथ काम करने के लिए उपयोग करते हैं।

दशकों के ओपन-सोर्स विकास के बाद, पायथन शक्तिशाली सांख्यिकीय और संख्यात्मक पुस्तकालयों के साथ व्यापक कार्यक्षमता प्रदान करता है:

  • NumPy और Pandas डेटा का विश्लेषण और हेरफेर करना आसान बनाते हैं
  • Matplotlib आकर्षक डेटा विज़ुअलाइज़ेशन प्रदान करता है
  • स्किकिट-लर्न सरल और प्रभावी भविष्य कहनेवाला डेटा विश्लेषण प्रदान करता है
  • TensorFlow और PyTorch मशीन सीखने और गहरी सीखने की क्षमताओं की आपूर्ति करते हैं

उदाहरण परिदृश्य

आमतौर पर, एक डेटा-विश्लेषण परियोजना को किसी विशेष परिदृश्य के आसपास अंतर्दृष्टि स्थापित करने या एक परिकल्पना का परीक्षण करने के लिए डिज़ाइन किया गया है।

उदाहरण के लिए, मान लीजिए कि एक विश्वविद्यालय के प्रोफेसर अपने छात्रों के बारे में डेटा एकत्र करते हैं, जिसमें भाग लेने वाले व्याख्यान की संख्या, अध्ययन में बिताए गए घंटे और टर्म परीक्षा के अंत में प्राप्त अंतिम ग्रेड शामिल हैं। प्रोफेसर यह निर्धारित करने के लिए डेटा का विश्लेषण कर सकते हैं कि क्या छात्र के अध्ययन की मात्रा और उनके द्वारा प्राप्त अंतिम ग्रेड के बीच कोई संबंध है। प्रोफेसर एक परिकल्पना का परीक्षण करने के लिए डेटा का उपयोग कर सकते हैं कि केवल वे छात्र जो न्यूनतम संख्या में अध्ययन करते हैं, वे उत्तीर्ण ग्रेड प्राप्त करने की उम्मीद कर सकते हैं।

छात्र ग्रेड से संबंधित व्याख्यान और अध्ययन के समय का आरेख।

हम क्या करेंगे?

इस प्रशिक्षण मॉड्यूल में, हम एक प्रोफेसर के दृष्टिकोण से एक काल्पनिक विश्वविद्यालय वर्ग के लिए ग्रेड डेटा का पता लगाएंगे और विश्लेषण करेंगे। हम डेटा सेट को साफ करने के लिए ज्यूपिटर नोटबुक और कई पायथन टूल और लाइब्रेरी का उपयोग करेंगे, डेटा के बारे में कई परिकल्पनाओं का परीक्षण करने के लिए सांख्यिकीय तकनीकों को लागू करेंगे, और चर के बीच संबंधों को निर्धारित करने के लिए डेटा की कल्पना करेंगे।