Preparación de datos para el aprendizaje automático mejorado

El preprocesamiento y la limpieza de datos son tareas importantes que se deben llevar a cabo para que un conjunto de datos se pueda usar para el entrenamiento de modelos. Los datos sin procesar son a menudo ruidosos no confiables y es posible que les falten valores. El uso de estos datos para el modelado puede producir resultados engañosos. Estas tareas forman parte del proceso de ciencia de datos en equipos (TDSP) y normalmente siguen una exploración inicial de un conjunto de datos que se usa para detectar y planear el preprocesamiento necesario. Para obtener más información, consulte ¿Qué es el proceso de ciencia de datos en equipo?.

Las tareas de preprocesamiento y limpieza, como la tarea de exploración de datos, se pueden llevar a cabo en una amplia variedad de entornos, como SQL o Hive o Azure Machine Learning Studio (clásico). También puede usar varias herramientas y lenguajes, como R o Python. Dónde se almacenan los datos y cómo afecta su formato a estas decisiones. Como el TDSP es iterativo por naturaleza, estas tareas pueden tener lugar en diversos pasos del flujo de trabajo del proceso.

En este artículo se presentan varios conceptos sobre el procesamiento de datos y las tareas que se pueden llevar a cabo antes o después de ingerir datos en Azure Machine Learning Studio (clásico).

Para ver un ejemplo de exploración y preprocesamiento de datos realizado en Azure Machine Learning Studio (clásico), visione el vídeo Preprocesamiento de datos.

¿Por qué preprocesar y limpiar datos?

Se recopilan datos del mundo real de varios orígenes y procesos y pueden contener irregularidades o datos dañados que comprometen la calidad del conjunto de datos. Los problemas de calidad de datos más habituales que surgen son:

  • Datos incompletos: carece de atributos o contiene valores omitidos
  • Datos ruidosos: contienen registros erróneos o valores atípicos
  • Datos incoherentes: contienen discrepancias o registros en conflicto

Los datos de calidad son un requisito previo para los modelos predictivos de calidad. Para evitar la entrada y salida de elementos no utilizados y mejorar la calidad de los datos y, por lo tanto, el rendimiento del modelo, es imperativo realizar una evaluación del estado de los datos para detectar problemas de datos de forma temprana. Debe decidir los pasos de procesamiento y limpieza de datos correspondientes.

¿Cuáles son algunas pantallas de mantenimiento de datos más habituales que se emplean?

Puede comprobar la calidad general de los datos comprobando:

  • El número de registros.
  • El número de atributos (o características).
  • Los tipos de datos de atributo, como nominales, ordinales o continuos.
  • El número de valores que faltan.
  • Para datos con formato correcto.
    • Si los datos tienen el formato TSV o CSV, compruebe que los separadores de columnas y de líneas siempre separen correctamente líneas y columnas.
    • Si los datos están en formato HTML o XML, compruebe si los datos tienen el formato correcto basándose en sus estándares respectivos.
    • El análisis también puede ser necesario para extraer información estructurada de datos semiestructurados o no estructurados.
  • Registros de datos incoherentes. Compruebe el intervalo de valores permitidos, por ejemplo. Por ejemplo, si los datos contienen promedios de calificaciones (GPA) de los estudiantes, compruebe si los GPA están en el rango designado, por ejemplo, de 0 a 4.

Cuando encuentre problemas con los datos, realice los pasos de procesamiento, como limpieza de los valores que faltan, normalización de datos, discretización, procesamiento de texto para quitar o reemplazar caracteres incrustados que puedan afectar a la alineación de datos y tipos de datos mixtos en campos comunes, entre otros.

Azure Machine Learning consume datos tabulares con formato correcto. Si los datos ya están en formato tabular, puede realizar el preprocesamiento de datos directamente con Azure Machine Learning Studio (clásico). Si los datos no están en formato tabular, por ejemplo, si están en formato XML, es posible que tenga que analizar los datos para convertirlos en formato tabular.

¿Cuáles son algunas de las tareas principales del preprocesamiento de datos?

  • Limpieza de datos: rellene los valores que faltan, detecte y quite los valores atípicos y los datos con ruido.
  • Transformación de datos: normalice datos para reducir el ruido y las dimensiones.
  • Reducción de datos: atributos o registros de datos de ejemplo para un control de datos más sencillo.
  • Discretización de datos: convierta atributos continuos en atributos de categorías para facilitar su uso con determinados métodos de aprendizaje automático.
  • Limpieza de texto: quite los caracteres incrustados que podrían provocar una desalineación de datos. Por ejemplo, pueden ser pestañas incrustadas en un archivo de datos separados por tabulaciones o líneas nuevas incrustadas que interrumpen los registros.

En las secciones siguientes se detallan algunos de los pasos de procesamiento de datos.

¿Cómo tratar los valores que faltan?

Para tratar los valores que faltan, primero identifique el motivo de los valores que faltan. Los métodos de control de valores que faltan típicos son:

  • Eliminación: quite los registros con los valores que faltan.
  • Sustitución ficticia: reemplace los valores que faltan por un valor ficticio, como desconocido para valores de categorías o 0 para valores numéricos.
  • Sustitución media: si los datos que faltan son numéricos, reemplace los valores que faltan por la media.
  • Sustitución frecuente: si los datos que faltan son de categoría, cambie los valores que faltan por el elemento más frecuente.
  • Sustitución de regresión: utilice el método de regresión para reemplazar los valores que faltan por valores con regresión.

¿Cómo normalizar datos?

La normalización de datos escala los valores numéricos a un intervalo especificado. Entre los métodos de normalización de datos más conocidos se incluyen:

  • Normalización mínima-máxima: transforme linealmente los datos a un intervalo, por ejemplo, entre 0 y 1, donde el valor mínimo se escala a 0 y el máximo a 1.
  • Normalización de puntuación Z: escale los datos en función de la media y la desviación estándar. Divida la diferencia entre los datos y la media por la desviación estándar.
  • Escalado decimal: escale los datos moviendo la coma decimal del valor del atributo.

¿Cómo discretizar los datos?

Los datos se pueden discretizar mediante la conversión de valores continuos en intervalos o atributos nominales. Puede usar los siguientes métodos:

  • Discretización de mismo ancho: divida el intervalo de todos los valores posibles de un atributo en N grupos del mismo tamaño y asigne los valores que se encuentran en una ubicación con el número de ubicación.
  • Discretización de misma altura: divida el rango de todos los valores posibles de un atributo en N grupos, cada uno de los cuales contiene el mismo número de instancias. A continuación, asigne los valores que se encuentran en un contenedor con el número de intervalo.

¿Cómo reducir los datos?

Existen varios métodos para reducir el tamaño de los datos para un tratamiento más sencillo de los datos. Según el tamaño de los datos y el dominio, puede aplicar los siguientes métodos:

  • Muestreo de registros: realice un muestreo de los registros de datos y elija únicamente el subconjunto de datos representativo.
  • Muestreo de atributos: seleccione solo un subconjunto de los atributos más importantes de los datos.
  • Agregación: divida los datos en grupos y almacene los números para cada grupo. Por ejemplo, los números de los ingresos diarios de una cadena de restaurantes durante los últimos 20 años se pueden agregar para ingresos mensuales con el fin de reducir el tamaño de los datos.

¿Cómo limpiar los datos de texto?

Los campos de texto en datos tabulares pueden incluir caracteres que afectan a los límites de registros o alineación de columnas. Por ejemplo, las pestañas incrustadas en un archivo separado por tabulaciones causan un error de alineación de columnas y los caracteres de nueva línea incrustados dividen las líneas de registro. Al escribir o leer texto, gestione correctamente la codificación del texto para evitar la pérdida de información, la introducción involuntaria de caracteres ilegibles (como los nulos) o que el análisis sintáctico del texto se vea afectado negativamente. Es posible que tenga que analizar y editar datos cuidadosamente. Puede limpiar campos de texto para garantizar la alineación adecuada y extraer datos estructurados de datos no estructurados o semiestructurados.

La exploración de los datos ofrece una vista anticipada de los datos. Puede descubrir muchos problemas de datos durante este paso y aplicar los métodos correspondientes para solucionarlos. Es importante formular preguntas como ¿cuál es la causa del problema y cómo se ha podido producir el problema? Este proceso también le ayuda a decidir acerca de los pasos de procesamiento de datos que deben llevarse a cabo para resolverlos. Para priorizar el esfuerzo de procesamiento de datos, puede identificar los casos de uso finales y las personas.

Referencias

_Minería de datos: conceptos y técnicas, Tercera edición, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber y Jian Pei

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes