Matices de los conjuntos de pruebas

Completado

Los conjuntos de pruebas se consideran procedimientos recomendados para la mayoría de los aspectos del aprendizaje automático, aunque el campo sigue siendo relativamente pequeño y, por tanto, se debate exactamente cómo y cuándo. Veamos algunos aspectos que se deben tener en cuenta.

Los conjuntos de pruebas pueden ser engañosos

Aunque los conjuntos de pruebas son útiles para identificar el sobreentrenamiento, pueden proporcionarnos una confianza falsa. En concreto, los conjuntos de pruebas solo son útiles si reflejan datos que esperamos ver en el mundo real. Por ejemplo, nuestro conjunto de pruebas es muy pequeño y no será representativo de la variedad de datos que es probable que se vean en el mundo real. Así mismo, los conjuntos de datos de prueba solo son tan buenos como su origen. Si el conjunto de datos de prueba procede de un origen sesgado, nuestras métricas no reflejarán el comportamiento en el mundo real.

Por ejemplo, supongamos que estamos intentando encontrar la relación entre el número de rescates y la edad a la que un perro empezó a entrenar. Si nuestro conjunto de pruebas solo contaba con tres perros, es posible que estos perros no sean una buena representación de la amplia variedad de perros de trabajo en el mundo real. Además, imagine que obtenemos nuestro conjunto de pruebas de un solo criador, que no sabe cómo trabajar con cachorros. Nuestro modelo podría predecir que los perros más mayores son los mejores para entrenar, y nuestro conjunto de datos de prueba lo confirmaría, cuando de hecho otros instructores podrían tener un éxito enorme con animales más jóvenes.

Los conjuntos de pruebas no son gratuitos

Ya hemos visto que cuantos más datos de entrenamiento tengamos, menos probable será que nuestro modelo se sobreajuste. Del mismo modo, cuanto más grandes sean los conjuntos de pruebas, más confianza tendremos en los resultados de las mismas. Sin embargo, normalmente trabajamos con cantidades finitas de datos y un punto de datos no puede estar en el conjunto de entrenamiento y en el de prueba. Esto significa que, a medida que obtenemos conjuntos de pruebas más grandes, también obtenemos conjuntos de datos de entrenamiento más pequeños y viceversa. La cantidad exacta de datos que deben sacrificarse para que aparezcan en el conjunto de datos de prueba depende de las circunstancias individuales, siendo relativamente habitual entre un 10 y un 50 %, en función del volumen de datos disponibles.

Entrenar y probar no es el único enfoque

Hay que tener en cuenta que el método de entrenamiento y prueba es habitual, pero no el único. Dos de las alternativas más comunes son los métodos de enfoque de retención y enfoque estadístico.

El enfoque de exclusión

El enfoque de exclusión es como el de entrenamiento y prueba, pero en lugar de dividir un conjunto de datos en dos, se divide en tres: entrenamiento, prueba (también conocido como validación) y retención. Los conjuntos de datos de entrenamiento y prueba son como se describe a continuación. El conjunto de datos de retención es un tipo de conjunto de pruebas que se usa solo una vez, cuando estemos listos para implementar nuestro modelo para su uso real. En otras palabras, no se usa hasta que hayamos terminado de experimentar con diferentes tipos de prácticas de entrenamiento, distintos tipos de modelos, etc.

Este enfoque aborda el hecho de que normalmente experimentamos con diferentes modelos y prácticas de entrenamiento. Por ejemplo, ajustamos un modelo, descubrimos que no funciona bien con el conjunto de datos de prueba, cambiamos algunos aspectos del modelo entrenado y lo volvemos a intentar hasta obtener un buen resultado. Esto significa que estamos modificando a propósito el modelo para que funcione para un conjunto determinado de datos, al igual que lo hace el entrenamiento normal con el conjunto de datos de entrenamiento. Cuando hacemos esto, podemos acabar con un modelo que básicamente está demasiado entrenado para funcionar en nuestro conjunto de datos de prueba.

La idea de un tercer conjunto de datos es que también podemos probarlo. Este enfoque significa dividir los datos de tres maneras, lo que implica que empezamos con incluso menos datos de entrenamiento. Si no tenemos muchos datos con los que trabajar, este enfoque puede reducir nuestra capacidad de obtener un buen modelo.

Enfoques estadísticos

Los modelos más sencillos que se han originado en las estadísticas a menudo no necesitan conjuntos de datos de prueba. En su lugar, podemos calcular el grado de sobreajuste del modelo directamente como significación estadística: un valor p.

Estos métodos estadísticos son eficaces, están bien establecidos y forman la base de la ciencia moderna. La ventaja es que el conjunto de entrenamiento no tiene que dividirse nunca y obtenemos una comprensión mucho más precisa de la confianza que podemos tener sobre un modelo. Por ejemplo, un valor p de 0,01 significa que hay una probabilidad muy pequeña de que nuestro modelo haya encontrado una relación que realmente no exista en el mundo real. Por el contrario, un valor p de 0,5 significa que, aunque nuestro modelo podría ser bueno con nuestros datos de entrenamiento, no será mejor que lanzar una moneda al aire en el mundo real.

El inconveniente de estos enfoques es que solo se aplican fácilmente a determinados tipos de modelos, como los modelos de regresión lineal con los que hemos estado trabajando. Para todos los modelos, salvo los más sencillos, estos cálculos pueden ser extremadamente complejos de realizar correctamente, por lo que están fuera del alcance de este curso. También sufren la misma limitación con respecto a la selección de datos: si nuestros datos de entrenamiento están sesgados, nuestros valores p serán engañosos.