فحص أنواع مختلفة من البيانات

مكتمل

البيانات هي مجرد كلمة أخرى للمعلومات المجمعة. أحجام وكميات كبيرة من المعلومات المتاحة ضخمة، وتمتد على العديد من أنواع المعلومات المختلفة.

يمكننا تصنيف البيانات بطرق عديدة. للعمل في مساحة التعلم الآلي، يجب أن نفهم كلا من نوع وأنظمة التخزين الرقمية للبيانات المتاحة لنا.

بيانات مستمرة وترتيبية، وفئوية

بالنسبة لعمليات البيانات، نحتاج أحيانا إلى الوعي بما تمثله البيانات بالضبط. يمكن أن يساعدنا هذا الوعي في اختيار نموذج التعلم الآلي الصحيح. كما يمكن أن يساعدنا في تنظيم بياناتنا بطرق محددة ومفيدة.

تشير البيانات المستمرة إلى المعلومات الرقمية التي يمكن أن تزيد أو تنقص بأي قدر. على سبيل المثال، يمكنك إضافة 1 ملليمتر إلى متر واحد، وحساب المجموع على أنه 1.001 متر.

تشير البيانات الفئوية إلى البيانات التي لا تقع على نطاق مستمر. في السيناريو الخاص بنا، تصنف البيانات الأشخاص على تيتانيك على أنها "طاقم" أو "ركاب". لا يمكن تخزين البيانات الفئوية كأرقام بطريقة واضحة بوضوح.

تشير البيانات الترتيبية إلى البيانات الفئوية التي لها ترتيب محدد، وبالتالي يمكن أن تدعم التخزين كقيم رقمية. على سبيل المثال، يمكننا تحديد قيم البيانات الكبيرة والمتوسطة والصغيرة كبيانات ترتيبية لأنه يمكننا تصنيفها رقميا: متوسط > كبير > صغير. وعلى النقيض من ذلك، فإن قيم التفاح والبرتقالوجوز الهند فئوية لأننا لا نستطيع تصنيفها. يمكن أن تشير البيانات الترتيبية أيضا إلى الأرقام التي يمكن أن تزيد أو تنقص، ولكن فقط عن طريق تعيين المبالغ. على سبيل المثال، من المضمون أن يكون عدد الأشخاص الذين يركبون قاربا عددا صحيحا: لا يمكن لأحد أن يكون نصف متنه.

تشير المعرفات إلى نوع خاص من البيانات الفئوية حيث يكون لكل عينة معرف فريد خاص بها. على سبيل المثال، في مجموعة البيانات الخاصة بنا، يكون لكل شخص على Titanic قيمة معرف معينة، حتى إذا كان هذا الشخص يحمل نفس اسم شخص آخر. تساعدنا قيم الهوية على التنقل في مجموعة بيانات، ولكن تحليل البيانات لدينا لا يتضمن هذه القيم مباشرة.

أنواع البيانات

يجب على الكمبيوتر تخزين ومعالجة جميع البيانات التي نستخدمها للتعلم الآلي. بينما يمكننا كتابة أي بيانات تقريبا على قطعة من الورق باستخدام قلم رصاص، تخزن أجهزة الكمبيوتر المعلومات كسلسلة من 0 و1. وهذا يضع قيودا على الطريقة التي نستخدم بها المعلومات.

يشير نوع البيانات إلى نوع البيانات التي يخزنها الكمبيوتر. تحتوي أنواع البيانات بشكل عام على هذه الفئات:

  • الأعداد الصحيحة: عد الأرقام: على سبيل المثال، 2
  • أرقام الفاصلة العائمة: أرقام ذات منازل عشرية: على سبيل المثال، 2.43
  • السلاسل: الحروف والكلمات
  • القيم المنطقية: صواب وخطأ
  • لا شيء أو فارغ أو خال: ليس البيانات، ولكن بدلا من عدم وجود بيانات

تختلف المصطلحات الدقيقة وتنفيذ هذه المفاهيم من لغة إلى أخرى، ولكنها تعمل جميعا بطرق مماثلة عبر جميع لغات الكمبيوتر.

في بعض الأحيان، يقدم نوعان مختلفان من أنواع البيانات وظائف مكافئة. على سبيل المثال، يمكن لأجهزة الكمبيوتر معالجة القيم الصحيحة/الخاطئة كقيم منطقية (صواب أو خطأ) أو سلاسل ('y' أو 'n') أو أعداد صحيحة (0 أو 1) أو حتى أرقام الفاصلة العائمة (0.0 أو 1.0).

أنواع البيانات المشتقة

بينما نستخدم التكنولوجيا، نواجه العديد من أنواع البيانات الأساسية "الأولية" بخلاف القائمة أعلاه. يمكن لأجهزة الكمبيوتر تخزين التواريخ والصور والنماذج ثلاثية الأبعاد وما إلى ذلك. نشير إلى هذه على أنها أنواع بيانات مشتقة. نبدأ بنوع بيانات بدائي واحد أو أكثر لإنشاء نوع بيانات مشتق.

في كثير من الأحيان، في التعلم الآلي، فإنه يساعد على تحويل الأنواع المشتقة إلى تمثيلات أبسط. على سبيل المثال، يمكننا تخزين قيمة تاريخ محددة (على سبيل المثال، 1 يناير 2017) كعدد صحيح أو رقم فاصلة عائمة: 20170101. تجعل أرقام الأعداد الصحيحة أو الفاصلة العائمة العمليات الحسابية خلف نماذجنا أسهل.

هل يوجد الكثير من الخيارات؟

يمكن أن تساعدك معرفة نوع البيانات المتوفرة لديك في اختيار نوع البيانات الصحيح.

يمكن أن يعتمد نوع البيانات الصحيح على الحزمة التي تستخدمها لتشغيل نماذجك، على الرغم من أن الحزم متساهلة بشكل عام. بشكل عام:

  • للعمل مع البيانات المستمرة، تصبح أرقام النقاط العائمة الخيار الأفضل.
  • عادة ما يتم ترميز البيانات الترتيبية بقيم عدد صحيح.
  • يمكن عادة ترميز البيانات الفئوية التي تتضمن فئتين فقط كبيانات منطقية أو عدد صحيح. يمكن أن يصبح العمل مع ثلاث فئات أو أكثر أكثر أكثر تعقيدا. لا تقلق - سيغطي الدرس التالي هذا الموضوع!

في التمرين التالي، سنتدرب على تصور البيانات، لفهم البيانات نفسها بشكل أفضل. أثناء القيام بذلك، لاحظ أنواع البيانات المعنية بعناية، وحاول تحديد أنواع البيانات المستمرة أو الترتيبية أو الفئوية.