בחינת סוגי נתונים שונים

הושלם

נתונים הם רק מילה נוספת למידע שנאסף. כמויות גדולות של מידע זמין הן עצום, והן כוללות סוגי מידע רבים ושונות.

אנו יכולים לחלק נתונים לקטגוריות בדרכים רבות. כדי לפעול בשטח למידת המכונה, עלינו להבין הן את הסוג והן את מערכות האחסון הדיגיטליות של הנתונים הזמינים לנו.

נתונים רציפיים, סודר וקטגוריות

עבור פעולות נתונים, לפעמים נדרשת מודעות למה בדיוק הנתונים מייצגים. מודעות זו יכולה לעזור לנו לבחור את מודל למידת המכונה הנכון. הוא יכול גם לעזור לנו לארגן את הנתונים שלנו בדרכים ספציפיות מועילות.

נתונים מתייחס למידע מספרי שעשוי להגדיל או להקטין בכל סכום. לדוגמה, באפשרותך להוסיף מילימטר אחד למטר אחד ולחשב סכום כ- 1.001 מטרים.

נתונים לקטגוריות מתייחסים לנתונים שאינם שייכים בספקטרום רציף. בתרחיש שלנו, הנתונים מסווגים את האנשים בטיטניק כצוות של או . לא ניתן לאחסן נתונים לקטגוריות כמספרים באופן ברור.

סודר מתייחס לנתונים סיווגיים עם סדר מוגדר, ולכן הם יכולים לתמוך באחסון כערכים מספריים. לדוגמה, אנו יכולים להגדיר ערכים של big, mediumו- small כנתונים סודרים מכיוון שאנו יכולים לדרג אותם במספרית > בינונית > קטנה. לעומת זאת, הערכים apple, כתוםו- קוקוס הם סיווגי מכיוון שלא ניתן לדרג אותם. נתונים סודרים יכולים גם להפנות למספרים העשויים להגדיל או להקטין, אך רק על-ידי כמויות מוגדרות. לדוגמה, מספר האנשים שעולים לסירה מובטח כמספר שלם, כי אף אחד לא יכול לחצי פנסיון.

מזהי מתייחסים לסוג מיוחד של נתונים לקטגוריות שבהם לכל מדגם יש מזהה ייחודי משלו. לדוגמה, לכל אדם בערכת הנתונים שלנו ב- Titanic יש ערך מזהה נתון, גם אם לאדם זה יש שם זהה לזה של אדם אחר. ערכי זהות עוזרים לנו לנווט בערכת נתונים, אך ניתוח הנתונים שלנו אינו כולל ערכים אלה באופן ישיר.

סוגי נתונים

מחשב חייב לאחסן ולעבד את כל הנתונים שבהם אנו משתמשים עבור למידת מכונה. על אף שאנחנו יכולים לכתוב כמעט כל נתונים על פיסת נייר עם עיפרון, המחשבים מאחסים מידע בסדרות של 0 ו- 1. הדבר מציב הגבלות על האופן שבו אנו משתמשים במידע.

סוג מפנה לסוג הנתונים שמחשב מאחסן. סוגי נתונים כוללים בדרך כלל קטגוריות אלה:

  • שלמים: ספירת מספרים כגון 2.
  • מספרים עם נקודה צפה: עם מקומות עשרוניים כגון 2.43.
  • מחרוזות: אותיות ומילים.
  • בוליאניים: true ו- False.
  • ללא, ערך null או ערך null: נתונים, אלא היעדר נתונים.

המונחים וההטמעה המדויקים עבור מושגים אלה משתנים משפה לשפה, אך כולם פועלים בדרכים דומות בכל שפות המחשב.

לעתים, שני סוגי נתונים שונים מציעים פונקציונליות שווה ערך. לדוגמה, מחשבים יכולים לטפל בערכי True/false כערכים בוליאניים (true או False), מחרוזות (y או n), מספרים שלמים (0 או 1) או מספרי נקודה צפה (0.0 או 1.0).

סוגי נתונים נגזרים

כאשר אנו משתמשים בטכנולוגיה, אנו נתקלים בסוגי נתונים בסיסיים ופרימיטיביים רבים נוספים מעבר לרשימה הקודמת. מחשבים יכולים לאחסן תאריכים, תמונות, מודלים תלת-ממדיים וכן הלאה. אנו מתייחסים אליהן נתונים נגזרים. אנו מתחילים עם סוג נתונים פרימיטיבי אחד או יותר כדי לבנות סוג נתונים נגזר.

לעתים קרובות בלמידת מכונה, היא עוזרת להמיר סוגים נגזרים לייצוגים פשוטים יותר. לדוגמה, אנו יכולים לאחסן ערך תאריך מוגדר כגון 1 בינואר, 2017 כמספר שלם או כמספר נקודה צפה כגון 20170101. מספרים שלמים או מספרי נקודה צפה מקלים על החישובים מאחורי המודלים שלנו.

אפשרויות רבות מדי?

ידיעת סוג הנתונים הזמינים שלך יכולה לעזור לך לבחור את סוג הנתונים הנכון.

סוג הנתונים הנכון יכול להיות תלוי בחבילה שבה אתה משתמש כדי להפעיל את המודלים שלך, למרות שחבילות בדרך כלל מאפשרות. באופן כללי:

  • כדי לעבוד עם נתונים רציפים, מספרי נקודה צפה הופכים לבחירה הטובה ביותר.
  • נתונים סודרים מקודדים בדרך כלל עם ערכי מספרים שלמים.
  • נתונים קטגוריות הכוללים שתי קטגוריות בלבד יכולים בדרך כלל לקודד כנתונים בוליאניים או שלמים. עבודה עם שלוש קטגוריות או יותר עשויה להפוך להיות מעט יותר מורכבת. אל דאגה, השיעור הבא מכסה נושא זה!

בתרגיל הבא, נתרגל תצוגה חזותית של נתונים כדי להבין טוב יותר את הנתונים עצמם. כפי שאנו עושים זאת, שים לב בקפידה על סוגי הנתונים המעורבים, ונסה לזהות את סוגי הנתונים הרציפה, הסודר או הקטגוריות.