Compartir a través de


Ficha Validación cruzada (vista Gráfico de precisión de minería de datos)

La validación cruzada le permite dividir una estructura de minería de datos en secciones transversales y entrenar y probar de forma iterativa los modelos con cada sección transversal. Se especifican varios plegamientos en los que dividir los datos, y cada uno se utiliza a su vez como datos de pruebas, mientras que los datos restantes se utilizan para entrenar un nuevo modelo. A continuación, Analysis Services genera un conjunto de medidas de precisión estándar para cada modelo. Al comparar las medidas de los modelos generados para cada sección transversal, puede hacerse una idea del grado de confiabilidad del modelo de minería con respecto a todo el conjunto de datos.

Para obtener más información, vea Validación cruzada (Analysis Services - Minería de datos).

Nota

La validación cruzada no se puede utilizar con modelos que se generaron con el algoritmo de serie temporal de Microsoft o el algoritmo de clústeres de secuencias de Microsoft. Si ejecuta el informe en una estructura de minería de datos que contiene estos tipos de modelos, los modelos no se incluirán en el informe.

  • Especifique el número de plegamientos.

  • Especifique el número máximo de casos para utilizar en la validación cruzada.

  • Especifique la columna de predicción.

  • Si lo desea, puede especificar un estado de predicción.

  • Además, puede establecer parámetros que controlen cómo se evalúa la precisión de la predicción.

  • Haga clic en Obtener resultados para mostrar los resultados de la validación cruzada.

  • Recuento de plegamientos
    Especifique el número de plegamientos, o particiones, que desea crear. El valor mínimo es 2, lo que significa que se usa la mitad del conjunto de datos para las pruebas y la otra mitad para el entrenamiento.

    El valor máximo es 10 para las estructuras de minería de datos de la sesión.

    El valor máximo es 256, si la estructura de minería de datos está almacenada en una instancia de Analysis Services.

    Nota

    Cuando aumenta el número de pliegues, el tiempo que se necesita para realizar la validación cruzada aumenta de igual forma en n. Podría experimentar problemas de rendimiento si el número de casos es grande y el valor de Recuento de plegamientos también es grande.

  • Máximo de casos
    Especifique el número máximo de casos para utilizar en la validación cruzada. El número de casos en cualquier plegamiento determinado es igual al valor Máximo de casos dividido por el valor de Recuento de plegamientos.

    Si utiliza 0, todos los casos de los datos de origen se utilizan para la validación cruzada.

    No existe ningún valor predeterminado.

    Nota

    El tiempo de proceso también aumenta a medida que aumenta el número de casos.

  • Atributo de destino
    Seleccione una columna de la lista de columnas de predicción que se encuentra en todos los modelos. Sólo puede seleccionar una columna predecible cada vez que realice validación cruzada.

    Para probar sólo los modelos de clústeres, seleccione Clúster.

  • Estado de destino
    Escriba un valor o seleccione un valor de destino en una lista desplegable de valores.

    El valor predeterminado es null, que indica que se probarán todos los estados.

    Se deshabilita para modelos de clústeres.

  • DestinoUmbral
    Especifique un valor entre 0 y 1 que indique la probabilidad de la predicción anterior que se considera que un estado predicho es correcto. El valor se puede establecer en 0.1 incrementos.

    El valor predeterminado es null, lo que indica que la predicción más probable se cuenta como correcta.

    Nota

    Aunque puede establecer el valor en 0.0, si usa este valor aumentará el tiempo de proceso y no producirá resultados significativos.

  • Obtener resultados
    Haga clic para comenzar la validación cruzada del modelo utilizando los parámetros especificados.

    El modelo se divide en el número especificado de plegamientos y para cada uno se prueba un modelo independiente. Por consiguiente, podría tardar algún tiempo para que la validación cruzada devuelva resultados.

Para obtener más información acerca de la interpretación de los resultados del informe de validación cruzada, vea Informe de validación cruzada (Analysis Services - Minería de datos).

Establecer el umbral de precisión

Puede controlar el estándar para medir la exactitud de la predicción estableciendo un valor para Umbral de destino. Un umbral representa un tipo de barra de precisión. A cada predicción se le asigna una probabilidad de que el valor predicho sea correcto. Por consiguiente, si establece en 1 el valor de Umbral de destino, está requiriendo que la probabilidad para cualquier predicción determinada sea bastante alta para contabilizarse como una predicción correcta. Y a la inversa, si establece en 0 Umbral de destino, incluso las predicciones con valores de probabilidad más bajos se cuentan como predicciones "buenas".

No hay ningún valor de umbral recomendado porque la probabilidad de cualquier predicción depende de la cantidad de datos y del tipo de predicción que se está realizando. Debería revisar algunas predicciones en niveles de probabilidad diferentes para determinar una barra de precisión adecuada para sus datos. Es importante que haga esto, porque el valor que establece para Umbral de destino afecta a la precisión medida del modelo.

Por ejemplo, suponga que se hacen tres predicciones para un estado de destino determinado, y las probabilidades de cada predicción son 0.05, 0.15 y 0.8. Si establece el umbral en 0.5, sólo se tiene en cuenta una predicción como correcta. Si establece Umbral de destino en 0.10, se tienen en cuenta dos predicciones como correctas.

Cuando Umbral de destino está establecido en null, que es el valor predeterminado, la predicción más probable para cada caso se considera correcta. En el ejemplo recién citado, 0.05, 0.15 y 0.8 son las probabilidades de las predicciones de tres casos diferentes. Aunque las probabilidades son muy distintas, cada una se contaría como correcta, porque cada caso genera sólo una predicción y éstas son las mejores predicciones para estos casos.