Mejora de los modelos de clasificación
En nuestros ejercicios, encontramos que nuestro modelo podía predecir avalanchas tan cierto grado, pero todavía estaba equivocado alrededor de 40% del tiempo. Esta cantidad de error se debe a que nuestra característica, el número de capas débiles de nieve, no es lo único que es responsable de avalanches.
Ahora, vamos a profundizar en las dos formas principales de mejorar el rendimiento del modelo de clasificación: proporcionar más características y ser selectivos sobre lo que entra en el modelo.
Proporcionar más características
Al igual que la regresión lineal, la regresión logística no tiene que limitarse a una sola entrada. Puede combinar características para realizar predicciones. Por ejemplo, podríamos intentar predecir avalanchas en función de la caída de nieve y el número de excursionistas que perturban un sendero. Podemos especificar ambas características en el mismo modelo para calcular una probabilidad de una avalancha.
Internamente, la regresión logística combina características de forma similar a la regresión lineal. Es decir, trata todas las características como independientes, lo que significa que supone que las características no influyen entre sí. Por ejemplo, nuestro modelo supone que la cantidad de nieve no cambia el número de personas que visitan la pista. De forma predeterminada, también supone que la caída de nieve aumenta el riesgo de avalancha por una cantidad establecida, independientemente del número de excursionistas que caminan por el sendero.
Los lados buenos y malos de las características independientes
Se puede indicar explícitamente que la regresión logística combine características para que se puedan modelar de forma conjunta, pero no de forma predeterminada. La regresión logística es diferente de la mayoría de los otros algoritmos de categorización conocidos, como árboles de decisión y redes neuronales.
El hecho de que la regresión logística trate las características como independientes de forma predeterminada es una intensidad y una limitación que debe tener en cuenta. Por ejemplo, puede hacer predicciones claras simplemente, como aumentar el número de personas aumenta el riesgo, lo que normalmente no pueden hacer otros modelos. También reduce la posibilidad de sobreajustar los datos de entrenamiento. Por el contrario, el modelo puede no funcionar bien si las características interactúan realmente en el mundo real. Por ejemplo, cinco excursionistas que cruzan una montaña son arriesgadas si hay nieve, pero cinco personas están seguras si no hay ninguna caída de nieve para causar una avalancha. Un modelo de regresión logística debe indicarse explícitamente que busque una interacción entre la nieve y el número de excursionistas de este ejemplo para recoger este matiz.
Piense en sus características
La otra manera de mejorar los modelos es pensar en qué características se proporcionan y por qué. Por lo general, cuantos más características agreguemos a un modelo, mejor funciona el modelo. Sin embargo, esta correlación solo es cierta si las características que proporcionamos son relevantes y explican algo que las características existentes no.
Evitar el sobreentrenamiento
Si proporcionamos más características que no son útiles, el modelo puede sobreentrenar, dando la apariencia de trabajar mejor pero realmente funcionando peor en el mundo real.
Por ejemplo, imagine si teníamos registros diarios de , amount_of_snow
number_of_hikers
, temperature
y number_of_birds_spotted
. El número de aves detectadas probablemente no es información relevante; sin embargo, si se proporciona, el modelo termina modelando una relación entre avalanches y el número de aves detectadas en días dados. Si las aves se detectaron más en días de avalancha, el modelo sugiere que las aves podrían ser responsables de causar avalanches. Después, podríamos configurar un programa de observación sistemática de aves para predecir avalanchas, solo para encontrar que no funciona en absoluto.
Evitar el entrenamiento inferior
El uso de características de forma ingenua también puede provocar un entrenamiento insuficiente y no realizar predicciones lo más adecuadas posible. Por ejemplo, y temperature
number_of_hikers
podrían estar estrechamente vinculados a avalancha; sin embargo, si las personas solo caminan en días soleados, el modelo podría resultar difícil diferenciar la importancia de las caminatas en comparación con la temperatura. Del mismo modo, podríamos encontrar que nuestro modelo funciona mejor si proporcionamos nuestro number_of_hikers
como recuento exacto de visitantes, en lugar de simplemente high
o low
– dejar que el entrenamiento del modelo encuentre una relación más exacta.