استكشف البيانات باستخدام NumPy وPandas

مكتمل

يمكن لعلماء البيانات استخدام أدوات وتقنيات متنوعة لاستكشاف البيانات وتصورها ومعالجتها. وتعد واحدة من الطرق الأكثر شيوعًا التي يعمل بها علماء البيانات مع البيانات هي استخدام لغة Python وبعض الحزم المحددة لمعالجة البيانات.

ما هو NumPy؟

NumPy هي مكتبة Python توفر وظائف قابلة للمقارنة مع الأدوات الرياضية مثل MATLAB وR. بينما يعمل NumPy على تبسيط تجربة المستخدم بشكل كبير، فإنه يوفر أيضا وظائف رياضية شاملة.

ما هي بانداز؟

Pandas عبارة عن مكتبة التعليمات البرمجية لـ Python الشعبية للغاية لتحليل البيانات والتلاعب بها. تشبه Pandas تطبيق جدول بيانات ل Python، ما يوفر وظائف سهلة الاستخدام لجداول البيانات.

Diagram of Pandas DF.

استكشاف البيانات في دفتر ملاحظات Jupyter

دفاتر Jupyter عبارة عن وسيلة شائعة لتشغيل البرامج النصية الأساسية باستخدام متصفح الويب الخاص بك. عادة ما تتكون الدفاتر هذه من صفحة ويب منفردة مقسمة إلى مقاطع نصية وأقسام التعليمات البرمجية التي يتم تنفيذها على الخادم بدلاً من الجهاز المحلي. من خلال تشغيل التعليمات البرمجية في دفاتر ملاحظات Jupyter على خادم، يمكنك البدء بسرعة دون الحاجة إلى تثبيت Python أو أدوات أخرى على الكمبيوتر المحلي.

اختبار الفرضيات

عادة ما يكون استكشاف البيانات وتحليلها عملية تكرارية ، يأخذ فيها عالم البيانات عينة من البيانات وينفذ الأنواع التالية من المهام لتحليلها واختبار الفرضيات:

  • تنظيف البيانات لمعالجة الأخطاء والقيم المفقودة، وغيرها من المشكلات.
  • تطبيق التقنيات الإحصائية لفهم البيانات بشكل أفضل، وكيف يمكن توقع أن تمثل العينة مجموعة البيانات في العالم الحقيقي، ما يسمح بتغير عشوائي.
  • تصور البيانات تصور البيانات لتحديد العلاقات بين المتغيرات، وفي حالة مشروع التعلم الآلي، تعريف الميزات التي يُحتمل أن تكون تنبؤية للتسمية.
  • مراجعة الفرضية وتكرار العملية.