Compartir a través de


Medidas en el informe de validación cruzada

Durante la validación cruzada, Analysis Services divide los datos de una estructura de minería de datos en varias secciones transversales y, a continuación, va probando de forma iterativa la estructura y los modelos de minería de datos asociados. En función de este análisis, genera un conjunto de medidas estándar de precisión para la estructura y para cada modelo.

El informe contiene cierta información básica acerca del número de subconjuntos de los datos y de la cantidad de datos en cada subconjunto, además de un conjunto de métricas generales que describen la distribución de los datos. Si compara las métricas generales para cada sección transversal, puede evaluar la confiabilidad de la estructura o el modelo.

Analysis Services también muestra un conjunto de medidas detalladas para los modelos de minería de datos. Estas medidas dependen del tipo de modelo y del tipo de atributo que se está analizando: por ejemplo, si es discreto o continuo.

En esta sección se proporciona una lista de las medidas contenidas en el informe de Validación cruzada y su significado. Para obtener información detallada sobre cómo se calcula cada medida, vea Fórmulas de validación cruzada.

Lista de medidas del informe de validación cruzada

En la tabla siguiente se enumeran las medidas que aparecen en el informe de validación cruzada. Las medidas se agrupan según el tipo de prueba proporcionado en la columna izquierda de la tabla siguiente. La columna de la derecha contiene el nombre de la medida tal como aparece en el informe, junto con una breve explicación de lo que significa.

Tipo de prueba

Medidas y descripciones

Agrupación en clústeres

Medidas relacionadas con los modelos de agrupación en clústeres

Probabilidad de casos

Esta medida suele indicar la probabilidad de que un caso pertenezca a un clúster determinado.

Para la validación cruzada, las puntuaciones se suman y luego se dividen entre el número de casos, de modo que aquí la puntuación es una media de la probabilidad de los casos.

Clasificación

Medidas relacionadas con los modelos de clasificación

Verdadero positivo

Verdadero negativo

Falso positivo

Falso positivo

Recuento de filas o valores de la partición cuyo estado predicho coincide con el estado de destino y cuya probabilidad de predicción es mayor que el umbral de estado especificado.

Se excluyen los casos a los que les faltan valores para el atributo de destino, lo que significa que los recuentos de todos los valores pueden no coincidir.

Sin errores/Error

Recuento de filas o valores de la partición cuyo estado de predicción coincide con el estado de destino y cuyo valor de probabilidad de predicción es mayor que 0.

Probabilidad

Las medidas de probabilidad se aplican a varios tipos de modelos.

Mejora respecto al modelo predictivo

La proporción entre la probabilidad de predicción real y la probabilidad marginal en los casos de prueba. Se excluyen las filas a las que les falta el valor para el atributo de destino.

Esta medida normalmente muestra la mejora de la probabilidad del resultado de destino cuando se usa el modelo.

Error cuadrático medio

La raíz cuadrada del error promedio para todos los casos de partición, dividido por el número de casos en la partición, excluidas las filas que tienen valores ausentes para el atributo de destino.

RMSE es un estimador popular para los modelos predictivos. La puntuación calcula el promedio de los valores residuales para cada caso con objeto de producir un único indicador del error del modelo.

Logaritmo

El logaritmo de la probabilidad real de cada caso, sumada y después dividida por el número de filas del conjunto de datos de entrada, excluidas las filas que tienen valores ausentes para el atributo de destino.

Como la probabilidad se representa como una fracción decimal, las puntuaciones del registro son siempre números negativos. Un número más próximo a 0 es una puntuación mejor. Mientras que las puntuaciones sin formato pueden tener distribuciones muy irregulares o sesgadas, una puntuación de logaritmo es similar a un porcentaje.

Estimación

Medidas que solo se aplican a los modelos de estimación, que predicen un atributo numérico continuo.

Error cuadrático medio

El error promedio cuando el valor predicho se compara con el valor real.

RMSE es un estimador popular para los modelos predictivos. La puntuación calcula el promedio de los valores residuales para cada caso con objeto de producir un único indicador del error del modelo.

Desviación media

El error promedio cuando los valores predichos se comparan con los valores reales, calculado como el promedio de la suma absoluta de los errores.

La desviación media es útil para comprender lo cercanas que se encontraban las predicciones globales de los valores reales. Una puntuación menor significa que las predicciones fueron más precisas.

Logaritmo

El logaritmo de la probabilidad real de cada caso, sumada y después dividida por el número de filas del conjunto de datos de entrada, excluidas las filas que tienen valores ausentes para el atributo de destino.

Como la probabilidad se representa como una fracción decimal, las puntuaciones del registro son siempre números negativos. Un número más próximo a 0 es una puntuación mejor. Mientras que las puntuaciones sin formato pueden tener distribuciones muy irregulares o sesgadas, una puntuación del registro es similar a un porcentaje.

Agregados

Las medidas agregadas proporcionan una indicación acerca de la varianza en los resultados para cada partición.

Promedio

La media de los valores de la partición para una medida determinada.

Desviación estándar

La media de la desviación con respecto al promedio para una medida concreta, para todas las particiones de un modelo.

Para la validación cruzada, un valor mayor para esta puntuación implica una variación sustancial entre los subconjuntos.

Vea también

Conceptos

Prueba y validación (minería de datos)