NumPy और Pandas के साथ डेटा एक्सप्लोर करें

Complete

डेटा वैज्ञानिक डेटा का पता लगाने, कल्पना करने और हेरफेर करने के लिए विभिन्न उपकरणों और तकनीकों का उपयोग कर सकते हैं। डेटा वैज्ञानिकों द्वारा डेटा के साथ काम करने के सबसे सामान्य तरीकों में से एक डेटा प्रोसेसिंग के लिए पायथन भाषा और कुछ विशिष्ट पैकेजों का उपयोग करना है।

NumPy क्या है?

NumPy एक पायथन लाइब्रेरी है जो MATLAB और R जैसे गणितीय उपकरणों के बराबर कार्यक्षमता प्रदान करती है। जबकि NumPy उपयोगकर्ता अनुभव को महत्वपूर्ण रूप से सरल करता है, यह व्यापक गणितीय कार्य भी प्रदान करता है।

पांडा क्या है?

पांडा डेटा विश्लेषण और हेरफेर के लिए एक बेहद लोकप्रिय पायथन लाइब्रेरी है। पांडा पायथन के लिए एक स्प्रेडशीट एप्लिकेशन की तरह है, जो डेटा टेबल के लिए उपयोग में आसान कार्यक्षमता प्रदान करता है।

पांडा डेटाफ्रेम का आरेख।

किसी नोटबुक में डेटा का अन्वेषण करना

नोटबुक आपके वेब ब्राउज़र का उपयोग करके बुनियादी स्क्रिप्ट चलाने का एक लोकप्रिय तरीका है। आमतौर पर, ये नोटबुक्स एक एकल वेबपेज होते हैं, जिन्हें पाठ अनुभागों और कोड अनुभागों में विभाजित किया जाता है जिन्हें व्यक्तिगत रूप से चलाया जा सकता है.

परीक्षण परिकल्पना

डेटा अन्वेषण और विश्लेषण आमतौर पर एक पुनरावृत्ति प्रक्रिया है, जिसमें डेटा वैज्ञानिक डेटा का एक नमूना लेता है और इसका विश्लेषण करने और परिकल्पनाओं का परीक्षण करने के लिए निम्न प्रकार के कार्य करता है:

  • त्रुटियों, अनुपलब्ध मानों और अन्य समस्याओं को हैंडल करने के लिए डेटा साफ़ करें.
  • डेटा को बेहतर ढंग से समझने के लिए सांख्यिकीय तकनीकों को लागू करें और यादृच्छिक भिन्नता की अनुमति देते हुए नमूने से डेटा की वास्तविक दुनिया की आबादी का प्रतिनिधित्व करने की उम्मीद कैसे की जा सकती है।
  • चर के बीच संबंधों को निर्धारित करने के लिए डेटा की कल्पना करें, और मशीन लर्निंग प्रोजेक्ट के मामले में, उन विशेषताओं पहचानें जो संभावित रूप से लेबलकी भविष्यवाणी कर रहे हैं।
  • परिकल्पना को संशोधित करें और प्रक्रिया को दोहराएं।