مقدمة

مكتمل

يستمد التعلم الآلي قدرته التنبؤية من حقيقة أنه يتكون من البيانات. لجعل النماذج فعالة، يجب فهم البيانات التي تستخدمها.

هنا، نستكشف كيف يمكن تصنيف البيانات وتخزينها وتفسيرها من قبل البشر وأجهزة الكمبيوتر على حد سواء. نحن نستكشف ما الذي يجعل مجموعة البيانات جيدة، وكيفية إصلاح المشكلات في البيانات الخاصة بنا. نحن نتدرب أيضاً على استكشاف بيانات جديدة ونوضح كيف يمكن أن يساعد التفكير في مجموعة بيانات بشكل أعمق في بناء نماذج تنبؤية أفضل.

السيناريو: الرحلة الأخيرة لسفينة تايتنك

بصفتك عالم آثار بحرية، لديك اهتمام كبير بشكل غير عادي بالكوارث البحرية. في وقت متأخر من إحدى الليالي أثناء عرض صور عظام الحيتان ولفائف قديمة حول أتلانتس، تصادف مجموعة بيانات عامة تعرض الأشخاص المعروف أنهم على سفينة تيتانيك خلال رحلتها الأولى والأخيرة. ما حدث لهذه السفينة الذي يعد مزيجاً من القدر والصدفة يجعلك تفكر ملياً متسائلاً - ما هي العوامل التي ساعدت في نجاة أحد الأشخاص من حطام السفينة الشهير هذا؟ بيانات هذه الفترة غير مكتملة بعض الشيء - كما لا توجد الكثير من المعلومات عن بعض الركاب. ستحتاج إلى إيجاد طرق لتصحيح هذه البيانات قبل تحليلها بالكامل.

المتطلبات الأساسية

  • الإلمام ببعض مفاهيم التعلم الآلي، مثل النماذج والتكلفة، مفيد ولكنه ليس ضرورياً

الأهداف التعليمية

خلال هذه الوحدة، سوف تتمكن مما يلي:

  • تصور مجموعات البيانات الكبيرة باستخدام تحليل البيانات الاستكشافي (EDA)
  • تنظيف مجموعة بيانات من الأخطاء
  • التنبؤ بالقيم غير المعروفة باستخدام البيانات الرقمية والمطلقة