Evaluación del modelo de ML.NET con métricas

2025-06-18

Comprenda las métricas usadas para evaluar un modelo de ML.NET.

Las métricas de evaluación son específicas del tipo de tarea de aprendizaje automático que realiza un modelo.

Por ejemplo, para la tarea de clasificación, el modelo se evalúa midiendo el nivel de coincidencia de una categoría prevista con la categoría real. Y para la agrupación en clústeres, la evaluación se basa en la proximidad entre sí de los elementos agrupados y la separación entre los clústeres.

Métricas de evaluación para la clasificación binaria

Métricas	Descripción	Buscar
Precisión	La precisión es la proporción de predicciones correctas con un conjunto de datos de prueba. Es la relación entre el número de predicciones correctas y el número total de muestras de entrada. Funciona bien si hay un número similar de muestras que pertenecen a cada clase.	Cuanto más cerca de 1.00, mejor. Pero exactamente 1,00 indica un problema (normalmente: fuga de etiqueta/destino, sobreajuste o pruebas con datos de entrenamiento). Cuando los datos de prueba están desequilibrados (donde la mayoría de las instancias pertenecen a una de las clases), el conjunto de datos es pequeño o las puntuaciones se aproximan a 0,00 o 1,00, la precisión no captura realmente la eficacia de un clasificador y necesita comprobar métricas adicionales.
AUC	aucROC o Area bajo la curva mide el área bajo la curva creada mediante el barrido de la tasa positiva verdadera frente a la tasa de falsos positivos.	Cuanto más cerca de 1.00, mejor. Debe ser mayor que 0,50 para que un modelo sea aceptable. Un modelo con AUC de 0,50 o menos no tiene valor.
AUCPR	aucPR o Área bajo la curva de una curva de Precision-Recall: una medida útil para evaluar el éxito de la predicción cuando las clases están desequilibradas (conjuntos de datos muy desequilibrados).	Cuanto más cerca de 1.00, mejor. Las puntuaciones altas cercanas a 1,00 muestran que el clasificador devuelve resultados precisos (alta precisión) y devuelve la mayoría de todos los resultados positivos (recuperación alta).
Puntuación F1	La puntuación F1 también se denomina puntuación F equilibrada o medida F. Es la media armónica de la precisión y la recuperación. La puntuación F1 resulta útil cuando desea buscar un equilibrio entre la precisión y la recuperación.	Cuanto más cerca de 1.00, mejor. Una puntuación F1 alcanza su mejor valor en 1,00 y la peor puntuación en 0,00. Te indica cuán preciso es el clasificador.

Para más información sobre las métricas de clasificación binaria, lea los artículos siguientes:

Métricas de evaluación para clasificación de varias clases y clasificación de texto

Métricas	Descripción	Buscar
Micro-precisión	La precisión de micropromedio agrega las contribuciones de todas las clases para calcular la métrica promedio. Es la fracción de instancias que se predijeron correctamente. El micro-promedio no tiene en cuenta la pertenencia a clases. Básicamente, cada par muestra-clase contribuye igualmente a la métrica de precisión.	Cuanto más cerca de 1.00, mejor. En una tarea de clasificación multiclase, la microexactitud es preferible sobre la macroexactitud si sospecha que podría haber un desequilibrio de clases (es decir, podría tener muchos más ejemplos de una clase que de otras).
Macroprecisión	La precisión de macropromedio es la precisión promedio en el nivel de clase. La precisión de cada clase se calcula y la macro-precisión es la media de estas precisiones. Básicamente, cada clase contribuye igualmente a la métrica de precisión. Las clases minorías tienen un peso igual que las clases más grandes. La métrica de promedio de macros proporciona el mismo peso a cada clase, independientemente del número de instancias de esa clase que contiene el conjunto de datos.	Cuanto más cerca de 1.00, mejor. Calcula la métrica de forma independiente para cada clase y, a continuación, toma el promedio (por lo tanto, trata todas las clases por igual)
Pérdida de registro	La pérdida logarítmica mide el rendimiento de un modelo de clasificación donde la entrada de predicción es un valor de probabilidad entre 0,00 y 1,00. La pérdida de registro aumenta a medida que la probabilidad de predicción difiere de la etiqueta real.	Cuanto más cerca de 0,00, mejor. Un modelo perfecto tendría una pérdida de registro de 0,00. El objetivo de los modelos de aprendizaje automático es minimizar este valor.
Reducción de pérdida logarítmica	La reducción de pérdida logarítmica se puede interpretar como la ventaja del clasificador sobre una predicción aleatoria.	Intervalos de -inf y 1,00, donde 1,00 es predicciones perfectas y 0,00 indica predicciones medias. Por ejemplo, si el valor es igual a 0,20, se puede interpretar como "la probabilidad de una predicción correcta es 20% mejor que la estimación aleatoria".

La microprecisión se alinea generalmente mejor con las necesidades empresariales de las predicciones de ML. Si desea seleccionar una única métrica para determinar la calidad de una tarea de clasificación multiclase, normalmente debería ser la microexactitud.

Ejemplo, para una tarea de clasificación de incidencias de soporte técnico: (asigna incidencias entrantes a los equipos de soporte técnico)

Microprecisión: ¿con qué frecuencia se clasifica una incidencia entrante en el equipo adecuado?
Macroprecisión: en un equipo medio, ¿con qué frecuencia es correcta una incidencia entrante para su equipo?

La macroprecisión proporciona más peso a los equipos pequeños en este ejemplo: un equipo pequeño que obtiene solo 10 incidencias al año cuenta tanto como un equipo grande con 10 000 incidencias al año. En este caso, la microprecisión se correlaciona mejor con la necesidad empresarial que se pregunta "cuánto tiempo y dinero puede ahorrar la compañía automatizando mi proceso de enrutamiento de incidencias".

Para obtener más información sobre las métricas de clasificación de varias clases, consulte Micropromedio y macropromedio de precisión, recuperación y puntuación F.

Métricas de evaluación para regresión y recomendación

Las tareas de regresión y recomendación predicen un número. En el caso de la regresión, el número puede ser cualquier propiedad de salida que esté influenciada por las propiedades de entrada. Para la recomendación, el número suele ser un valor de clasificación (entre 1 y 5, por ejemplo), o una recomendación sí/no (representada por 1 y 0 respectivamente).

Métrica	Descripción	Buscar
R cuadrado	R cuadrado (R2) o Coeficiente de determinación representa la potencia predictiva del modelo como un valor entre -inf y 1,00. 1.00 significa que hay un ajuste perfecto y el ajuste puede ser arbitrariamente pobre para que las puntuaciones puedan ser negativas. Una puntuación de 0,00 significa que el modelo adivina el valor esperado para la etiqueta. Un valor R2 negativo indica que el ajuste no sigue la tendencia de los datos y el modelo funciona peor que la estimación aleatoria. Esto solo es posible con modelos de regresión no lineal o regresión lineal restringida. R2 mide la proximidad de los valores de datos de prueba reales a los valores previstos.	Cuanto más cerca de 1.00, mejor calidad. Sin embargo, a veces los valores de R cuadrados bajos (como 0,50) pueden ser completamente normales o lo suficientemente buenos para su escenario y los valores altos de R cuadrado no siempre son buenos y son sospechosos.
Pérdida absoluta	La pérdida absoluta o el error absoluto medio (MAE) mide la proximidad de las predicciones a los resultados reales. Es el promedio de todos los errores del modelo, donde el error del modelo es la distancia absoluta entre el valor de etiqueta previsto y el valor de etiqueta correcto. Este error de predicción se calcula para cada registro del conjunto de datos de prueba. Por último, el valor medio se calcula para todos los errores absolutos registrados.	Cuanto más cerca de 0,00, mejor calidad. El error absoluto medio usa la misma escala que los datos que se miden (no se normaliza con un intervalo específico). La pérdida absoluta, la pérdida cuadrada y la pérdida rms solo se pueden usar para realizar comparaciones entre modelos para el mismo conjunto de datos o conjunto de datos con una distribución de valores de etiqueta similar.
Pérdida cuadrática	La pérdida cuadrada o el error cuadrático medio (MSE), también denominada desviación cuadrática media (MSD), indica lo cerca que es una línea de regresión para un conjunto de valores de datos de prueba tomando las distancias de los puntos a la línea de regresión (estas distancias son los errores E) y la cuartura de ellos. El cuadrado proporciona más peso a las grandes diferencias.	Siempre es no negativo y los valores más cercanos a 0,00 son mejores. En función de los datos, podría ser imposible obtener un valor muy pequeño para el error cuadrático medio.
Pérdida de RMS	La pérdida de RMS o el error cuadrático medio medio (RMSE) ( también denominado Desviación cuadrada media raíz, RMSD), mide la diferencia entre los valores previstos por un modelo y los valores observados desde el entorno que se está modelando. La pérdida de RMS es la raíz cuadrada de la pérdida cuadrática y tiene las mismas unidades de la etiqueta, similar a la pérdida absoluta aunque proporciona más peso a las grandes diferencias. El error cuadrático medio raíz se usa normalmente en la climatología, la previsión y el análisis de regresión para comprobar los resultados experimentales.	Siempre es no negativo y los valores más cercanos a 0,00 son mejores. RMSD es una medida de precisión, para comparar errores de previsión de diferentes modelos para un conjunto de datos determinado y no entre conjuntos de datos, ya que depende de la escala.

Para más información sobre las métricas de regresión, lea los artículos siguientes:

Métricas de evaluación para la agrupación en clústeres

Métrica	Descripción	Buscar
Distancia media	Promedio de la distancia entre los puntos de datos y el centro de su clúster asignado. La distancia media es una medida de proximidad de los puntos de datos a los centroide del clúster. Es una medida del grado de "ajuste" del clúster.	Los valores más cercanos a 0 son mejores. Cuanto más cerca de cero esté la distancia media, cuanto más agrupados sean los datos. Sin embargo, tenga en cuenta que esta métrica disminuirá si se aumenta el número de clústeres y, en el caso extremo (donde cada punto de datos distinto es su propio clúster), será igual a cero.
Índice Davies-Bouldin	Relación media de distancias dentro del clúster a distancias entre clústeres. Cuanto más estrecha sea el clúster y más separados los clústeres, menor será este valor.	Los valores más cercanos a 0 son mejores. Los clústeres que están más separados y menos dispersos darán lugar a una mejor puntuación.
Información mutua normalizada	Se puede usar cuando los datos de entrenamiento usados para entrenar el modelo de agrupación en clústeres también incluyen etiquetas de verdad básica (es decir, agrupación en clústeres supervisados). La métrica Normalized Mutual Information mide si se asignan puntos de datos similares al mismo clúster y se asignan puntos de datos dispares a distintos clústeres. La información mutua normalizada es un valor entre 0 y 1.	Los valores más cercanos a 1 son mejores.

Métricas de evaluación para la clasificación

Métrica	Descripción	Buscar
Ganancias acumulativas con descuento	La ganancia acumulativa con descuento (DCG) es una medida de la calidad de la clasificación. Se deriva de dos suposiciones. Uno: Los elementos altamente relevantes son más útiles cuando aparecen más altos en orden de clasificación. Dos: La utilidad realiza un seguimiento de la relevancia que es, cuanto mayor sea la relevancia, más útil será un elemento. La ganancia acumulativa con descuento se calcula para una posición determinada en el orden de clasificación. Suma la calificación de pertinencia dividida por el logaritmo del índice de clasificación hasta la posición de interés. Se calcula mediante $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Las calificaciones de relevancia se proporcionan a un algoritmo de entrenamiento de clasificación como etiquetas de verdad básica. Se proporciona un valor DCG para cada posición en la tabla de ranking, de ahí el nombre de Ganancias acumulativas con descuento.	Los valores más altos son mejores.
Ganancias acumulativas con descuento normalizadas	Normalizar DCG permite comparar la métrica con las listas de clasificación de diferentes longitudes.	Los valores más cercanos a 1 son mejores.

Métricas de evaluación para la detección de anomalías

Métrica	Descripción	Buscar
Área bajo curva ROC	El área situada bajo la curva del operador receptor mide la forma en que el modelo separa puntos de datos anómalos y habituales.	Los valores más cercanos a 1 son mejores. Solo los valores mayores que 0,5 muestran la eficacia del modelo. Los valores de 0,5 o inferior indican que el modelo no es mejor que asignar aleatoriamente las entradas a categorías anómalas y habituales.
Tasa de detección en el recuento de falsos positivos	La tasa de detección a recuento de falsos positivos es la proporción del número de anomalías identificadas correctamente con el número total de anomalías de un conjunto de pruebas, indizado por cada falso positivo. Es decir, hay un valor de la tasa de detección en el recuento de falsos positivos para cada elemento de falsos positivos.	Los valores más cercanos a 1 son mejores. Si no hay falsos positivos, este valor es 1.

Métricas de evaluación para la similitud de oraciones

Métrica	Descripción	Buscar
Correlación de Pearson	La correlación de Pearson, también conocida como coeficiente de correlación, mide la dependencia o relación entre dos conjuntos de datos.	Los valores absolutos más cercanos a 1 son más similares. Esta métrica va de -1 a 1. Un valor absoluto de 1 implica que los conjuntos de datos son idénticos. Un valor de 0 implica que no hay ninguna relación entre los dos conjuntos de datos.