Métricas de evaluación para modelos de flujo de trabajo de orquestación

Artículo
09/03/2024

El conjunto de datos se divide en dos partes: un conjunto para el entrenamiento y un conjunto para pruebas. El conjunto de entrenamiento se usa para entrenar el modelo, mientras que el conjunto de pruebas se usa como prueba para el modelo después del entrenamiento para calcular el rendimiento y la evaluación del modelo. El conjunto de pruebas no se introduce en el modelo a través del proceso de entrenamiento para asegurarse de que el modelo se prueba en nuevos datos.

La evaluación del modelo se desencadena automáticamente después de que el entrenamiento se haya completado correctamente. El proceso de evaluación comienza mediante el uso del modelo entrenado para predecir las intenciones definidas por el usuario para las expresiones del conjunto de pruebas y las compara con las etiquetas proporcionadas (que establecen una base de referencia de autenticidad). Los resultados se devuelven para que pueda revisar el rendimiento del modelo. Para la evaluación, el flujo de trabajo de orquestación usa las siguientes métricas:

Precisión: mide lo preciso o exacto que es el modelo. Es la relación entre los positivos identificados correctamente (verdaderos positivos) y todos los positivos identificados. La métrica de precisión revela cuántas de las clases previstas están correctamente etiquetadas.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Coincidencia: mide la capacidad del modelo para predecir clases positivas reales. Es la relación entre los verdaderos positivos previstos y lo que realmente se ha etiquetado. La métrica de coincidencia revela cuántas de las clases previstas están correctamente etiquetadas.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
Puntuación F1: la puntuación F1 es una función de precisión y coincidencia. Es necesaria cuando se busca un equilibrio entre precisión y coincidencia.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

La precisión, la coincidencia y la puntuación F1 se calculan para:

Cada intención por separado (evaluación de nivel de intención)
Para el modelo en su conjunto (evaluación de nivel de modelo).

Las definiciones de precisión, coincidencia y evaluación son las mismas para las evaluaciones de nivel de intención y nivel de modelo. Sin embargo, lo recuentos de verdaderos positivos, falsos positivos y falsos negativos pueden variar. Por ejemplo, considere el texto siguiente.

Ejemplo

Crear una respuesta que diga muchas gracias
Llamar a mi amigo
Hola
Good morning

Estas son las intenciones usadas: CLUEmail y Greeting.

El modelo podría hacer las siguientes predicciones:

Expresión	Intención prevista	Intención real
Crear una respuesta que diga muchas gracias	CLUEmail	CLUEmail
Llamar a mi amigo	Saludo	CLUEmail
Hola	CLUEmail	Saludo
Goodmorning	Saludo	Saludo

Evaluación de nivel de intención para la intención CLUEmail

Clave	Count	Explicación
Verdadero positivo	1	La expresión 1 se predijo correctamente como CLUEmail.
Falso positivo	1	La expresión 3 se predijo erróneamente como CLUEmail.
Falso negativo	1	La expresión 2 se predijo erróneamente como Greeting.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluación de nivel de intención para la intención Greeting

Clave	Count	Explicación
Verdadero positivo	1	La expresión 4 se predijo correctamente como Greeting.
Falso positivo	1	La expresión 2 se predijo erróneamente como Greeting.
Falso negativo	1	La expresión 3 se predijo erróneamente como CLUEmail.

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluación a nivel de modelo para el modelo colectivo

Clave	Count	Explicación
Verdadero positivo	2	Suma de TP para todas las intenciones
Falso positivo	2	Suma de FP para todas las intenciones
Falso negativo	2	Suma de FN para todas las intenciones

Precisión = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Coincidencia = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

Puntuación F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Matriz de confusión

Una matriz de confusión es una matriz N x N que se usa para la evaluación del rendimiento del modelo, donde N es el número de intenciones. La matriz compara las etiquetas reales con las etiquetas predichas por el modelo. Esto proporciona una vista holística de cómo funciona el modelo y qué tipos de errores está cometiendo.

Puede usar la matriz de confusión para identificar las intenciones que están demasiado cerca unas de otras y que a menudo se confunden (ambigüedad). En este caso, considere la posibilidad de combinar estos tipos de intención. Si no es posible, considere la posibilidad de agregar más ejemplos etiquetados de ambas intenciones para ayudar al modelo a diferenciarlas.

Puede calcular las métricas de evaluación a nivel de modelo a partir de la matriz de confusión:

El verdadero positivo del modelo es la suma de verdaderos positivos de todas las intenciones.
El falso positivo del modelo es la suma de falsos positivos de todas las intenciones.
El falso negativo del modelo es la suma de falsos negativos de todas las intenciones.

Pasos siguientes

Entrenamiento de un modelo en Language Studio

Compartir vía

Métricas de evaluación para modelos de flujo de trabajo de orquestación

Ejemplo

Evaluación de nivel de intención para la intención CLUEmail

Evaluación de nivel de intención para la intención Greeting

Evaluación a nivel de modelo para el modelo colectivo

Matriz de confusión

Pasos siguientes

Comentarios

Recursos adicionales