Fórmulas de validación cruzada
Cuando se genera un informe de validación cruzada, contiene medidas de precisión para cada modelo según el tipo de modelo de minería de datos (es decir, el algoritmo utilizado para crear el modelo), el tipo de datos del atributo de predicción y el valor de atributo de predicción, si existe.
En esta sección se enumeran las medidas que se usan en el informe de validación cruzada y se describe el método de cálculo.
Para consultar un análisis de las medidas de precisión según el tipo de modelo, vea Medidas en el informe de validación cruzada.
Fórmulas utilizadas para las medidas de validación cruzada
[!NOTA]
Importante: estas medidas de precisión se calculan para cada atributo de destino. Para cada atributo, puede especificar u omitir un valor de destino. Si un caso del conjunto de datos no tiene ningún valor para el atributo de destino, el caso se trata como si tuviera un valor especial denominado valor ausente. Las filas que tienen valores ausentes no se cuentan al calcular la medida de precisión para un atributo de destino concreto. Observe que, dado que las puntuaciones se calculan para cada atributo individualmente, si los valores están presentes para el atributo de destino pero faltan para otros atributos, no afectan a la puntuación para el atributo de destino.
Medida |
Se aplica a |
Implementación |
---|---|---|
Verdadero positivo |
Atributo discreto, se especifica el valor. |
Recuento de casos que cumplen estas condiciones:
|
Verdadero negativo |
Atributo discreto, se especifica el valor. |
Recuento de casos que cumplen estas condiciones:
|
Falso positivo |
Atributo discreto, se especifica el valor. |
Recuento de casos que cumplen estas condiciones:
|
Falso negativo |
Atributo discreto, se especifica el valor. |
Recuento de casos que cumplen estas condiciones:
|
Sin errores/Error |
Atributo discreto, sin destino especificado |
Recuento de casos que cumplen estas condiciones:
|
Elevación |
Atributo discreto. Se puede especificar el valor de destino pero no es necesario. |
La probabilidad de registro de la media de todas las filas con valores para el atributo de destino, donde la probabilidad de registro para cada caso se calcula como Log(ActualProbability/MarginalProbability). Para calcular la media, la suma de los valores de probabilidad logarítmica se divide entre el número de filas del conjunto de datos de entrada, excluidas las filas sin valores para el atributo de destino. La mejora respecto al modelo predictivo puede ser un valor positivo o negativo. Un valor positivo indica que estamos ante un modelo eficaz que supera la estimación aleatoria. |
Puntuación del registro |
Atributo discreto. Se puede especificar el valor de destino pero no es necesario. |
Logaritmo de la probabilidad real de cada caso, sumada y después dividida entre el número de filas del conjunto de datos de entrada, excluidas las filas sin valores para el atributo de destino. Como la probabilidad se representa como una fracción decimal, las puntuaciones del registro son siempre números negativos. Una puntuación más cercana a 0 es una puntuación mejor. |
Probabilidad de casos |
Clúster |
Suma de las puntuaciones de probabilidad de clúster para todos los casos, dividida entre el número de casos de la partición, excluidas las filas sin valores para el atributo de destino. |
Error absoluto medio |
Atributo continuo |
Suma del error absoluto para todos los casos de la partición, dividida entre el número de casos de la partición. |
Error cuadrático medio |
Atributo continuo |
Raíz cuadrada del error cuadrático medio para la partición. |
Error cuadrático medio |
Atributo discreto. Se puede especificar el valor de destino pero no es necesario. |
Raíz cuadrada de la media de los cuadrados del complemento de la puntuación de probabilidad, dividida entre el número de casos de la partición, excluidas las filas sin valores para el atributo de destino. |
Error cuadrático medio |
Atributo discreto, sin destino especificado. |
Raíz cuadrada de la media de los cuadrados del complemento de la puntuación de probabilidad, dividida entre el número de casos de la partición, excluidos los casos sin valores para el atributo de destino. |