مقدمة
ينطوي دور عالم البيانات في المقام الأول، بطبيعة الحال، على استكشاف البيانات وتحليلها. على الرغم من أن النتيجة النهائية لتحليل البيانات قد تكون تقرير أو نموذج تعلم آلي، إلا أن علماء البيانات يبدأون عملهم بالبيانات، مع كون Python هي الأكثر شيوعا التي يستخدمها علماء بيانات لغة البرمجة للعمل مع البيانات.
بعد عقود من التطوير مفتوح المصدر، توفر Python وظائف واسعة النطاق مع مكتبات إحصائية رقمية قوية:
- يبسط NumPy وPandas تحليل البيانات ويتلاعب بها
- يوفر Matplotlib تصورات جذابة للبيانات
- يقدم Scikit-learn تحليلاً تنبؤيًا للبيانات يتسم بالبساطة والفعالية
- يوفر TensorFlow وPyTorch التعلم الآلي وقدرات التعلم العميق
سيناريو مثال
عادة ما يتم تصميم مشروع تحليل البيانات لإنشاء رؤى حول سيناريو معين أو لاختبار فرضية.
على سبيل المثال، افترض أن أستاذا جامعيا يجمع بيانات حول طلابه، بما في ذلك عدد المحاضرات التي حضرها، والساعات التي أمضاها في الدراسة، والدرجة النهائية التي تم تحقيقها في امتحان نهاية الفصل الدراسي. يمكن للبروفيسور تحليل البيانات لتحديد ما إذا كانت هناك علاقة بين مقدار الدراسة التي درسها الطالب والدرجة النهائية التي حصل عليها. قد يستخدم البروفيسور البيانات لاختبار فرضية مفادها أن الطالب الذي يدرس لعدد أقل من الساعات فقط يمكنه توقع تحقيق درجات تمكنه من النجاح.
ماذا سنفعل؟
في هذه الوحدة التدريبية، سنستكشف ونحلل بيانات الدرجات لفصل جامعي وهمي من وجهة نظر أستاذ. سنستخدم دفاتر ملاحظات Jupyter والعديد من أدوات ومكتبات Python لتنظيف مجموعة البيانات، وتطبيق التقنيات الإحصائية لاختبار العديد من الفرضيات حول البيانات، وتصور البيانات لتحديد العلاقات بين المتغيرات.