Examinar distintos tipos de datos

Completado

"Datos" es simplemente otra palabra para expresar "información recopilada". Los volúmenes y las masas de información disponibles son enormes y abarcan muchos tipos de información diferentes.

Podemos clasificar los datos de muchas maneras. Para operar en el espacio del aprendizaje automático, debemos comprender tanto el tipo como los sistemas de almacenamiento digital de los datos que tenemos disponibles.

Datos continuos, ordinales y categóricos

Para las operaciones con datos, a veces necesitamos conocer lo que representan exactamente esos datos. Este conocimiento puede ayudarnos a elegir el modelo de aprendizaje automático adecuado. También puede ayudarnos a organizar los datos de una manera específica y útil.

Datos continuos hace referencia a información numérica que puede aumentar o disminuir en cualquier cantidad. Por ejemplo, puede agregar 1 milímetro a 1 metro y calcular una suma como 1,001 metros.

Datos categóricos hace referencia a los datos que no están en un espectro continuo. En nuestro escenario, los datos clasifican a las personas del Titanic como “tripulación” o “pasajeros”. Los datos categóricos no se pueden almacenar como números de una forma obvia.

Datos ordinales hace referencia a datos categóricos que tienen un orden definido y, por tanto, se pueden almacenar como valores numéricos. Por ejemplo, podemos definir los valores grande, mediano y pequeño como datos ordinales, ya que podemos clasificarlos numéricamente: grande > mediano > pequeño. Por el contrario, los valores manzana, naranja y coco son categóricos, porque no podemos clasificarlos. Los datos ordinales también pueden hacer referencia a números que se pueden incrementar o reducir, pero solo en cantidades establecidas. Por ejemplo, el número de personas que se sube a un barco es seguro un número entero, porque no se puede embarcar a medias.

Id. hace referencia a un tipo especial de datos categóricos donde cada muestra tiene su propio id. único. Por ejemplo, en nuestro conjunto de datos, cada una de las personas que viajaba en el Titanic tiene un valor de id. determinado, aunque tenga el mismo nombre que otra persona. Los valores de identidad nos ayudan a navegar en un conjunto de datos, pero nuestro análisis de datos no implica directamente esos valores.

Tipos de datos

Debemos almacenar y procesar en un equipo todos los datos que usamos para el aprendizaje automático. Mientras que en un papel podemos escribir casi cualquier dato con un lápiz, los equipos almacenan información en forma de series de ceros y unos. Esto impone restricciones a la forma en la que usamos la información.

Tipo de datos hace referencia al tipo de datos que se almacena en un equipo. Los tipos de datos suelen tener estas categorías:

  • Enteros: números naturales; por ejemplo, 2.
  • Números de punto flotante: números con posiciones decimales; por ejemplo, 2,43.
  • Cadenas: letras y palabras
  • Booleanos: true y false
  • Ninguno, void o null: no son datos, sino más bien la ausencia de ellos.

Los términos exactos y la implementación de estos conceptos varían de un lenguaje a otro, pero todos funcionan de maneras similares en todos los lenguajes de programación.

A veces, dos tipos de datos diferentes ofrecen una funcionalidad equivalente. Por ejemplo, los equipos informáticos pueden controlar los valores true/false como booleanos (true o false), cadenas ("y" o "n"), enteros (0 o 1) o incluso números de punto flotante (0,0 o 1,0).

Tipos de datos derivados

A medida que usamos tecnología, encontramos muchos más tipos de datos básicos y 'primitivos' más allá de la lista anterior. Los equipos pueden almacenar fechas, imágenes y modelos 3D, entre otros. A estos nos referimos como tipos de datos derivados. Comenzamos con uno o varios tipos de datos primitivos para construir un tipo de datos derivado.

En el aprendizaje automático, a menudo resulta útil convertir tipos derivados en representaciones más simples. Por ejemplo, podemos almacenar un valor de fecha definido (por ejemplo, 1 de enero de 2017) como un número entero o de punto flotante: 01012017. Los números enteros o de punto flotante facilitan los cálculos subyacentes de los modelos.

¿Demasiadas opciones?

Saber qué clase de datos tiene puede ayudarle a elegir el tipo de datos correcto.

El tipo de datos correcto puede depender del paquete que use para ejecutar los modelos, aunque los paquetes suelen ser bastante permisivos. En general:

  • Para trabajar con datos continuos, los números de punto flotante son la mejor opción.
  • Los datos ordinales se suelen codificar con valores enteros.
  • Normalmente, los datos categóricos que solo implican dos categorías pueden codificarse como datos booleanos o enteros. Trabajar con tres categorías o más puede ser algo más complicado. No se preocupe, este tema lo veremos en la siguiente lección.

En el siguiente ejercicio, practicaremos la visualización de datos para comprender mejor los datos en sí. Al hacerlo, anote atentamente los tipos de datos implicados e intente identificar los tipos de datos continuos, ordinales o categóricos.