Métricas de evaluación

El conjunto de datos se divide en dos partes: un conjunto para el entrenamiento y un conjunto para pruebas. El conjunto de entrenamiento se usa para entrenar el modelo, mientras que el conjunto de pruebas se usa como prueba para el modelo después del entrenamiento para calcular el rendimiento y la evaluación del modelo. El conjunto de pruebas no se introduce en el modelo a través del proceso de entrenamiento para asegurarse de que el modelo se prueba en nuevos datos.

La evaluación del modelo se desencadena automáticamente después de que el entrenamiento se haya completado correctamente. El proceso de evaluación comienza utilizando el modelo entrenado para predecir las clases definidas por el usuario para los documentos del conjunto de pruebas y las compara con las etiquetas de datos proporcionadas (que establecen una base de referencia de autenticidad). Los resultados se devuelven para que pueda revisar el rendimiento del modelo. Para la evaluación, la clasificación de texto personalizada usa las siguientes métricas:

  • Precisión: mide lo preciso o exacto que es el modelo. Es la relación entre los positivos identificados correctamente (verdaderos positivos) y todos los positivos identificados. La métrica de precisión revela cuántas de las clases previstas están correctamente etiquetadas.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Coincidencia: mide la capacidad del modelo para predecir clases positivas reales. Es la relación entre los verdaderos positivos previstos y lo que realmente se ha etiquetado. La métrica de coincidencia revela cuántas de las clases previstas están correctamente etiquetadas.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • Puntuación F1: la puntuación F1 es una función de precisión y coincidencia. Es necesaria cuando se busca un equilibrio entre precisión y coincidencia.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Nota

La precisión, la coincidencia y la puntuación F1 se calculan para cada clase por separado (evaluación a nivel de clase) y para el modelo en su conjunto (evaluación a nivel de modelo).

Métricas de evaluación a nivel de modelo y clase

Las definiciones de precisión, coincidencia y evaluación son las mismas para las evaluaciones a nivel de clase y a nivel de modelo. Sin embargo, el recuento de verdaderos positivos, falsos positivos y falsos negativos difiere, como se muestra en el ejemplo siguiente.

En las secciones siguientes se usa el siguiente conjunto de datos de ejemplo:

Documento Clases reales Clases previstas
1 acción, comedia comedia
2 action action
3 historias románticas historias románticas
4 historias románticas, comedia historias románticas
5 comedia action

Evaluación a nivel de clase para la clase de acción

Clave Count Explicación
Verdadero positivo 1 El documento 2 se clasificó correctamente como acción.
Falso positivo 1 El documento 5 se clasificó erróneamente como acción.
Falso negativo 1 El documento 1 no se clasificó como acción, pero debería haberse clasificado así.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluación a nivel de clase para la clase de comedia

Clave Count Explicación
Verdadero positivo 1 El documento 1 se clasificó correctamente como comedia.
Falso positivo 0 Ningún documento se clasificó erróneamente como comedia.
Falso negativo 2 Los documentos 5 y 4 no se clasificaron como comedia, aunque deberían haberse clasificado así.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

Evaluación a nivel de modelo para el modelo colectivo

Clave Count Explicación
Verdadero positivo 4 A los documentos 1, 2, 3 y 4 se les asignaron clases correctas en la predicción.
Falso positivo 1 Al documento 5 se le asignó una clase incorrecta en la predicción.
Falso negativo 2 A los documentos 1 y 4 no se les asignaron todas las clases correctas en la predicción.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

Nota

Para los modelos de clasificación de etiqueta única, el recuento de falsos negativos y falsos positivos siempre es igual. Los modelos de clasificación de etiqueta única personalizados siempre predicen una clase para cada documento. Si la predicción no es correcta, el recuento de falsos positivos de la clase prevista aumenta en uno y el recuento de falsos negativos de la clase real aumenta en uno, mientras que el recuento total de falsos positivos y falsos negativos para el modelo siempre será igual. Este no es el caso de la clasificación multietiqueta, ya que no predecir una de las clases de un documento cuenta como un falso negativo.

Interpretación de las métricas de evaluación a nivel de clase

¿Qué significa realmente que una determinada clase tenga alta precisión o alta coincidencia?

Recuperación Precision Interpretación
Alto Alto El modelo controla perfectamente esta clase.
Bajo Alto El modelo no siempre puede predecir esta clase, pero cuando lo hace es con una confianza alta. Esto puede deberse a que esta clase está infrarrepresentada en el conjunto de datos, por lo que debe considerar la posibilidad de equilibrar la distribución de los datos.
Alto Bajo El modelo predice bien esta clase, pero con confianza baja. Esto puede deberse a que esta clase está excesivamente representada en el conjunto de datos, por lo que debe considerar la posibilidad de equilibrar la distribución de los datos.
Bajo Bajo El modelo controla mal esta clase, ya que normalmente no se predice y, cuando sí se predice, no tiene una confianza alta.

Cabe esperar que los modelos de clasificación de texto personalizado experimenten falsos negativos y falsos positivos. Debe tener en cuenta cómo afectará cada caso a todo el sistema y pensar detenidamente en escenarios en los que el modelo omitirá predicciones correctas y reconocerá predicciones incorrectas. En función de su escenario, la precisión o la coincidencia podrían ser más adecuadas para la evaluación del rendimiento del modelo.

Por ejemplo, si su escenario implica el procesamiento de incidencias de soporte técnico, la predicción de la clase incorrecta podría provocar que se dirigieran al departamento o equipo incorrectos. En este ejemplo, debe considerar la posibilidad de hacer que el sistema sea más sensible a los falsos positivos y la precisión sería una métrica más pertinente para la evaluación.

Otro ejemplo sería el de un escenario que implica categorizar correo electrónico como "importante" o "no deseado", donde una predicción incorrecta podría provocar que se perdiera un correo electrónico útil si se etiquetara como "no deseado". Sin embargo, si un correo electrónico no deseado se etiqueta como importante, puede ignorarlo. En este ejemplo, debe considerar la posibilidad de hacer que el sistema sea más sensible a los falsos negativos y la coincidencia sería una métrica más pertinente para la evaluación.

Si desea optimizar el sistema para escenarios de uso general o para casos en los que tanto la precisión como la coincidencia sean importantes, puede usar la puntuación F1. Las puntuaciones de evaluación son subjetivas en función del escenario y los criterios de aceptación. No hay ninguna métrica absoluta que funcione para todos los escenarios.

Instrucciones

Después de entrenar el modelo, verá algunas instrucciones y recomendaciones sobre cómo mejorarlo. Se recomienda tener un modelo que abarque todos los puntos de la sección de instrucciones.

  • El conjunto de entrenamiento tiene suficientes datos: cuando un tipo de clase tiene menos de 15 instancias etiquetadas en los datos de entrenamiento, puede provocar una menor precisión debido a que el modelo no se entrena adecuadamente en estos casos.

  • Todos los tipos de clase están presentes en el conjunto de pruebas: cuando los datos de prueba carecen de instancias etiquetadas para un tipo de clase, el rendimiento de las pruebas del modelo puede ser menos completo debido a escenarios sin probar.

  • Los tipos de clase se equilibran dentro de los conjuntos de entrenamiento y prueba: cuando el sesgo de muestreo provoca una representación inexacta de la frecuencia de un tipo de clase, puede provocar una menor precisión debido a que el modelo espera que ese tipo de clase se produzca con demasiada frecuencia o demasiado poco.

  • Los tipos de clase se distribuyen uniformemente entre los conjuntos de entrenamiento y pruebas: cuando la combinación de tipos de clase no coincide entre los conjuntos de entrenamiento y pruebas, puede dar lugar a una menor precisión de las pruebas debido a que el modelo se entrena de forma diferente a la forma en que se prueba.

  • Los tipos de clase del conjunto de entrenamiento son claramente distintos: cuando los datos de entrenamiento son similares para varios tipos de clase, puede dar lugar a una menor precisión, ya que los tipos de clase pueden clasificarse con frecuencia erróneamente como similares.

Matriz de confusión

Importante

La matriz de confusión no está disponible para los proyectos de clasificación de varias etiquetas. Una matriz de confusión es una matriz N x N que se usa para la evaluación del rendimiento del modelo, donde N es el número de clases. La matriz compara las etiquetas esperadas con las previstas por el modelo. Esto proporciona una vista holística de cómo funciona el modelo y qué tipos de errores está cometiendo.

Puede usar la matriz de confusión para identificar las clases que están demasiado cerca unas de otras y que a menudo se confunden (ambigüedad). En este caso, considere la posibilidad de combinar estos tipos de clases. Si no es posible, considere la posibilidad de etiquetar más documentos con ambas clases para ayudar al modelo a diferenciarlas.

Todas las predicciones correctas se encuentran en la diagonal de la tabla, por lo que es fácil inspeccionar visualmente la tabla en busca de errores de predicción, ya que estarán representados por valores fuera de la diagonal.

Captura de pantalla de una matriz de confusión de ejemplo.

Puede calcular las métricas de evaluación a nivel de clase y a nivel de modelo a partir de la matriz de confusión:

  • Los valores de la diagonal son los valores verdaderos positivos de cada clase.
  • La suma de los valores de las filas de clase (sin incluir la diagonal) es el falso positivo del modelo.
  • La suma de los valores de las columnas de clase (sin incluir la diagonal) es el falso negativo del modelo.

De forma similar:

  • El verdadero positivo del modelo es la suma de verdaderos positivos de todas las clases.
  • El falso positivo del modelo es la suma de falsos positivos de todas las clases.
  • El falso negativo del modelo es la suma de falsos negativos de todas las clases.

Pasos siguientes