مقدمة

مكتمل

حقيقة أن التعلم الآلي لأشكال البيانات يعطي التعلم الآلي قوته التنبؤية. لإنشاء نماذج فعالة، يجب أن تفهم البيانات التي تستخدمها.

هنا، نستكشف كيفية تصنيف كل من البشر وأجهزة الكمبيوتر للبيانات وتخزينها وتفسيرها. نحن ندرس ما الذي يجعل مجموعة بيانات جيدة، وكيفية إصلاح المشكلات في بياناتنا المتوفرة. كما نمارس استكشاف البيانات الجديدة، ونرى كيف يمكن أن يساعدنا التفكير العميق في مجموعة البيانات في بناء نماذج تنبؤية أفضل.

السيناريو: الرحلة الأخيرة لسفينة تايتنك

بصفتك عالم آثار بحرية، لديك اهتمام كبير بشكل غير عادي بالكوارث البحرية. في وقت متأخر من ليلة واحدة، أثناء النقر بين صور عظام الحيتان والتمريرات القديمة حول أتلانتيس، تجد مجموعة بيانات عامة تسرد الركاب المعروفين وطاقم الرحلة الأولى والأخيرة من تيتانيك. من خلال التوازن بين القدر والفرصة، تتساءل - ما العوامل التي حددت بقاء راكب تيتانيك؟ البيانات من هذه الفترة غير مكتملة إلى حد ما - الكثير من المعلومات لبعض الركاب غير معروف. يجب أن تجد طرقا لتصحيح هذه البيانات قبل أن تتمكن من تحليلها بالكامل.

المتطلبات الأساسية

  • بعض الإلمام بمفاهيم التعلم الآلي - مثل النماذج والتكلفة - يساعد، ولكنه غير مطلوب

الأهداف التعليمية

خلال هذه الوحدة النمطية، سوف تتمكن مما يلي:

  • تصور مجموعات البيانات الكبيرة باستخدام تحليل البيانات الاستكشافي (EDA)
  • تنظيف الأخطاء من مجموعة بيانات
  • توقع قيم غير معروفة باستخدام البيانات الرقمية والقاطعة