Métricas de evaluación para modelos personalizados de reconocimiento de entidades con nombre

Artículo
12/19/2023

El conjunto de datos se divide en dos partes: un conjunto para el entrenamiento y un conjunto para pruebas. El conjunto de entrenamiento se usa para entrenar el modelo, mientras que el conjunto de pruebas se usa como prueba para el modelo después del entrenamiento para calcular el rendimiento y la evaluación del modelo. El conjunto de pruebas no se introduce en el modelo a través del proceso de entrenamiento para asegurarse de que el modelo se prueba en nuevos datos.

La evaluación del modelo se desencadena automáticamente después de que el entrenamiento se haya completado correctamente. El proceso de evaluación comienza utilizando el modelo entrenado para predecir las entidades definidas por el usuario para los documentos del conjunto de pruebas y las compara con las etiquetas de datos proporcionadas (que establecen una base de referencia de autenticidad). Los resultados se devuelven para que pueda revisar el rendimiento del modelo. Para la evaluación, el NER personalizado usa las métricas siguientes:

Precisión: mide lo preciso o exacto que es el modelo. Es la relación entre los positivos identificados correctamente (verdaderos positivos) y todos los positivos identificados. La métrica de precisión revela cuántas de las entidades previstas están correctamente etiquetadas.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Coincidencia: mide la capacidad del modelo para predecir clases positivas reales. Es la relación entre los verdaderos positivos previstos y lo que realmente se ha etiquetado. La métrica de coincidencia revela cuántas de las entidades previstas están correctamente etiquetadas.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
Puntuación F1: la puntuación F1 es una función de precisión y coincidencia. Es necesaria cuando se busca un equilibrio entre precisión y coincidencia.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Nota

La precisión, la coincidencia y la puntuación F1 se calculan para cada entidad por separado (evaluación a nivel de entidad) y para el modelo en su conjunto (evaluación a nivel de modelo).

Métricas de evaluación a nivel de modelo y entidad

La precisión, la coincidencia y la puntuación F1 se calculan para cada entidad por separado (evaluación a nivel de entidad) y para el modelo en su conjunto (evaluación a nivel de modelo).

Las definiciones de precisión, coincidencia y evaluación son las mismas para las evaluaciones a nivel de entidad y a nivel de modelo. Sin embargo, lo recuentos de verdaderos positivos, falsos positivos y falsos negativos pueden variar. Por ejemplo, considere el texto siguiente.

Ejemplo

La primera parte de este contrato es John Smith, residente de 5678 Main Rd., ciudad de Frederick, estado de Nebraska. Y la segunda parte es Forrest Ray, residente de 123-345 Integer Rd., ciudad de Corona, estado de Nuevo México. También está Fannie Thomas, residente de 7890 River Road, ciudad de Colorado Springs, estado de Colorado.

El modelo que extrae entidades de este texto podría tener las siguientes predicciones:

Entidad	Se predice como	Tipo real
John Smith	Person	Person
Frederick	Person	City
Forrest	City	Person
Fannie Thomas	Person	Person
Colorado Springs	City	City

Evaluación a nivel de entidad para la entidad persona

El modelo tendría la siguiente evaluación a nivel de entidad para la entidad persona:

Clave	Count	Explicación
Verdadero positivo	2	John Smith y Fannie Thomas se perdijeron correctamente como persona.
Falso positivo	1	Frederick se predijo incorrectamente como persona, cuando se debería haber predicho como ciudad.
Falso negativo	1	Forrest se predijo incorrectamente como ciudad, cuando se debería haber predicho como persona.

Precisión: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
Coincidencia: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
Puntuación F1: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Evaluación a nivel de entidad para la entidad ciudad

El modelo tendría la siguiente evaluación a nivel de entidad para la entidad ciudad:

Clave	Count	Explicación
Verdadero positivo	1	Colorado Springs se predijo correctamente como ciudad.
Falso positivo	1	Forrest se predijo incorrectamente como ciudad, cuando se debería haber predicho como persona.
Falso negativo	1	Frederick se predijo incorrectamente como persona, cuando se debería haber predicho como ciudad.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluación a nivel de modelo del modelo colectivo

El modelo tendría la siguiente evaluación para el modelo en su totalidad:

Clave	Count	Explicación
Verdadero positivo	3	John Smith y Fannie Thomas se perdijeron correctamente como persona. Colorado Springs se predijo correctamente como ciudad. Esta es la suma de verdaderos positivos para todas las entidades.
Falso positivo	2	Forrest se predijo incorrectamente como ciudad, cuando se debería haber predicho como persona. Frederick se predijo incorrectamente como persona, cuando se debería haber predicho como ciudad. Esta es la suma de falsos positivos para todas las entidades.
Falso negativo	2	Forrest se predijo incorrectamente como ciudad, cuando se debería haber predicho como persona. Frederick se predijo incorrectamente como persona, cuando se debería haber predicho como ciudad. Esta es la suma de falsos negativos para todas las entidades.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

Interpretación de las métricas de evaluación a nivel de entidad

¿Qué significa realmente que una determinada entidad tenga una precisión o una coincidencia altas?

Recuperación	Precision	Interpretación
Alto	Alto	El modelo controla bien esta entidad.
Bajo	Alto	El modelo no siempre puede extraer esta entidad, pero cuando lo hace es con una confianza alta.
Alto	Bajo	El modelo extrae bien esta entidad, pero con confianza baja, ya que a veces se extrae como otro tipo.
Bajo	Bajo	El modelo no controla bien este tipo de entidad, porque normalmente no se extrae. Cuando lo hace, no es con una confianza alta.

Instrucciones

Después de entrenar el modelo, verá algunas instrucciones y recomendaciones sobre cómo mejorarlo. Se recomienda tener un modelo que abarque todos los puntos de la sección de instrucciones.

El conjunto de entrenamiento tiene suficientes datos: cuando un tipo de entidad tiene menos de 15 instancias etiquetadas en los datos de entrenamiento, puede provocar una menor precisión debido a que el modelo no se entrena adecuadamente en estos casos. En este caso, considere la posibilidad de agregar más datos etiquetados en el conjunto de entrenamiento. Puede consultar la pestaña de distribución de datos para obtener más instrucciones.
Todos los tipos de entidad están presentes en el conjunto de pruebas: cuando los datos de prueba carecen de instancias etiquetadas para un tipo de entidad, el rendimiento de las pruebas del modelo puede ser menos completo debido a escenarios sin probar. Puede consultar la pestaña de distribución del conjunto de datos de prueba para obtener más instrucciones.
Los tipos de entidad se equilibran dentro de los conjuntos de entrenamiento y prueba: cuando el sesgo de muestreo provoca una representación inexacta de la frecuencia de un tipo de entidad, puede provocar una menor precisión debido a que el modelo espera que ese tipo de entidad se produzca con demasiada frecuencia o demasiado poco. Puede consultar la pestaña de distribución de datos para obtener más instrucciones.
Los tipos de entidad se distribuyen uniformemente entre los conjuntos de entrenamiento y pruebas: cuando la combinación de tipos de entidad no coincide entre los conjuntos de entrenamiento y pruebas, puede dar lugar a una menor precisión de las pruebas debido a que el modelo se entrena de forma diferente a la forma en que se prueba. Puede consultar la pestaña de distribución de datos para obtener más instrucciones.
No hay una distinción clara entre los tipos de entidad del conjunto de entrenamiento: cuando los datos de entrenamiento son similares para varios tipos de entidad, puede dar lugar a una menor precisión, ya que los tipos de entidad pueden clasificarse con frecuencia erróneamente como similares. Revise los siguientes tipos de entidad y considere la posibilidad de combinarlos si son similares. De lo contrario, agregue más ejemplos para distinguirlos entre sí. Puede consultar la pestaña de la matriz de confusión para obtener más instrucciones.

Matriz de confusión

Una matriz de confusión es una matriz N x N que se usa para la evaluación del rendimiento del modelo, donde N es el número de entidades. La matriz compara las etiquetas esperadas con las previstas por el modelo. Esto proporciona una vista holística de cómo funciona el modelo y qué tipos de errores está cometiendo.

Puede usar la matriz de confusión para identificar las entidades que están demasiado cerca unas de otras y que a menudo se confunden (ambigüedad). En este caso, considere la posibilidad de combinar estos tipos de entidad. Si no es posible, considere la posibilidad de agregar más ejemplos etiquetados de ambas entidades para ayudar al modelo a diferenciarlas.

La diagonal resaltada en la imagen siguiente son las entidades predichas correctamente, donde la etiqueta predicha es la misma que la etiqueta real.

Puede calcular las métricas de evaluación a nivel de entidad y a nivel de modelo a partir de la matriz de confusión:

Los valores de la diagonal son los valores verdaderos positivos de cada entidad.
La suma de los valores de las filas de entidad (sin incluir la diagonal) es el falso positivo del modelo.
La suma de los valores de las columnas de entidad (sin incluir la diagonal) es el falso negativo del modelo.

De forma similar:

El verdadero positivo del modelo es la suma de verdaderos positivos de todas las entidades.
El falso positivo del modelo es la suma de falsos positivos de todas las entidades.
El falso negativo del modelo es la suma de falsos negativos de todas las entidades.