Informe de validación cruzada (Analysis Services - Minería de datos)
La validación cruzada le permite dividir una estructura de minería de datos en secciones transversales y entrenar y probar de forma iterativa los modelos con cada sección transversal de los datos. Se especifican varias particiones en las que dividir los datos, y cada una se utiliza a su vez como datos de pruebas, mientras que los datos restantes se utilizan para entrenar un nuevo modelo. A continuación, Analysis Services genera un conjunto de medidas de precisión estándar para cada modelo. Al comparar las medidas de los modelos generados para cada sección transversal, puede hacerse una idea del grado de confiabilidad del modelo de minería con respecto a todo el conjunto de datos.
[!NOTA]
La validación cruzada no se puede usar con ningún modelo que contenga una columna KEY TIME o una columna KEY SEQUENCE.
En esta sección se explica la información que se presenta en el informe Validación cruzada de la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos. Para obtener más información sobre cómo crear un informe, vea Ficha Validación cruzada (vista Gráfico de precisión de minería de datos).
Crear un informe de validación cruzada
Para realizar una validación cruzada de los modelos de minería asociados a una estructura de minería de datos, puede utilizar la ficha Validación cruzada de la Vista de precisión de minería de datos del Diseñador de minería de datos o los procedimientos almacenados de validación cruzada, con el fin de configurar las opciones siguientes:
Especifique el número de plegamientos.
Especifique el número máximo de casos para utilizar en la validación cruzada. Este número se divide por el número de plegamientos.
Especifique la columna de predicción. Si lo desea, puede especificar un estado de predicción.
[!NOTA]
Si su estructura de minería de datos contiene modelos de clústeres, especifique Nº de clústeres en lugar de seleccionar una columna de predicción. El informe solo devuelve los resultados para modelos de clústeres.
- Además, puede establecer parámetros que controlen cómo se evalúa la precisión de la predicción.
Elegir un conjunto de datos para la validación cruzada
Al usar la ficha Validación cruzada de la vista Gráfico de precisión de minería de datos, hay dos formas de controlar la cantidad y el tipo de datos que se utilizarán durante la validación cruzada: se puede especificar el número de subconjuntos y se puede limitar el número de casos. De forma predeterminada, la validación cruzada en Business Intelligence Development Studio utiliza los casos de entrenamiento para cada modelo. Si un filtro está asociado a un modelo, se aplica dicho filtro.
El valor Recuento de plegamientos especifica el número de secciones transversales del conjunto de datos que se va a crear. Cada plegamiento se utiliza como conjunto de datos de pruebas y los datos de los plegamientos restantes se utilizan para entrenar un modelo nuevo. Por consiguiente, si utilizó el valor mínimo 2, se utilizará la mitad del conjunto de datos para probar y la otra mitad para entrenar.
Si la estructura de minería de datos no está almacenada en una instancia de Analysis Services, pero se ha creado como una estructura temporal o de sesión, el número máximo de plegamientos que puede utilizar es 10. Si la estructura de minería de datos está almacenada en una instancia de Analysis Services, no puede crear más plegamientos que casos. Si el número de casos es menor que el número que especificó para Recuento de plegamientos, se utilizará el número menor.
[!NOTA]
A medida que aumenta el número de plegamientos, aumenta en consecuencia el tiempo necesario para realizar la validación cruzada, ya que se debe generar y probar un modelo para cada plegamiento. Puede experimentar problemas de rendimiento si el número de plegamientos es demasiado alto.
El valor Máximo de casos especifica el número total de casos, en todos los pliegues, que se pueden utilizar para la validación cruzada. Por tanto, el número de casos en cualquier plegamiento determinado es igual al valor Máximo de casos dividido por el valor de Recuento de plegamientos. El valor predeterminado es 0, que significa que se utilizan todos los casos en la estructura de minería de datos.
Si realiza una validación cruzada utilizando uno de los procedimientos almacenados, deberá proporcionar los valores para las propiedades FoldCount y MaxCases como parámetros del procedimiento almacenado.
[!NOTA]
Si usa los procedimientos almacenados de validación cruzada, también puede especificar el parámetro DataSet para definir el conjunto de datos que se utilizará para la prueba. Entre las opciones disponibles para el conjunto de datos se incluyen solo el conjunto de entrenamiento, los conjuntos de entrenamiento y prueba, así como las combinaciones de conjuntos de entrenamiento y prueba con filtros del modelo de minería. Para obtener más información, vea SystemGetCrossValidationResults (Analysis Services - Minería de datos).
Elegir los modelos y columnas para la validación
Al utilizar la ficha Validación cruzada del Diseñador de minería de datos, debe seleccionar primero la columna de predicción de la lista. Normalmente, una estructura de minería de datos puede admitir muchos modelos de minería, de los cuales no todos utilizan la misma columna de predicción. Al ejecutar una validación cruzada, solo se podrán incluir en el informe aquellos modelos que utilicen la misma columna de predicción.
Para elegir un atributo de predicción, haga clic en Atributo de destino y seleccione la columna de la lista. Si el atributo de destino es una columna anidada o una columna de una tabla anidada, debe escribir el nombre de la columna anidada utilizando el formato <Nombre de tabla anidada>(clave).<Columna anidada>. Si la única columna utilizada de la tabla anidada es la columna de clave, puede utilizar <Nombre de tabla anidada>(clave).
Nota Si utiliza los procedimientos almacenados, podrá ejercer más control sobre los modelos que se prueban. Para obtener más información, vea SystemGetCrossValidationResults (Analysis Services - Minería de datos).
Después de seleccionar el atributo de predicción, Analysis Services prueba todos los modelos que utilizan el mismo atributo de predicción automáticamente.
Si el atributo de destino contiene valores discretos, después de haber seleccionado la columna de predicción, puede escribir un estado de destino, en caso de que haya un valor concreto que desee predecir.
La selección del estado de destino afectará a las medidas que se devuelvan. Si especifica que un atributo de destino (es decir, un nombre de columna) no obtiene un valor concreto que el modelo deba predecir, el modelo se evaluará, de forma predeterminada, de acuerdo a su predicción del estado más probable.
Si está realizando una validación cruzada de un modelo de agrupación en clústeres, no habrá ninguna columna de predicción; en su lugar, debe seleccionar Nº de clústeres de la lista de atributos de predicción que aparecen en el cuadro de lista Atributo de destino. Después de haber seleccionado Clúster, estarán deshabilitadas el resto de opciones que no sean relevantes para los modelos de agrupación en clústeres, como por ejemplo Estado de destino. Analysis Services probará todos los modelos de agrupación en clústeres que estén asociados a la estructura de minería de datos.
Establecer el umbral de precisión
Puede controlar el método estándar para medir la precisión de la predicción estableciendo un valor para el Umbral de destino. Un umbral representa un tipo de barra de precisión. A cada predicción se le asigna una probabilidad de que el valor predicho sea correcto. Por consiguiente, si establece en 1 el valor de Umbral de destino, está requiriendo que la probabilidad para cualquier predicción determinada sea bastante alta para contabilizarse como una predicción correcta. Y a la inversa, si establece Umbral de destino a un valor cercano a0, incluso las predicciones con valores de probabilidad más bajos se contarán como predicciones "buenas".
No hay ningún valor de umbral recomendado porque la probabilidad de cualquier predicción depende de sus datos y del tipo de predicción que se está realizando. Debería revisar algunas predicciones en niveles de probabilidad diferentes para determinar un rango de precisión adecuado para sus datos. Este paso es importante porque el valor que establezca para Umbral de destino influirá significativamente en la precisión medida en el modelo.
Por ejemplo, suponga que su estructura contiene tres modelos que predicen el estado de destino con probabilidades de 0,05, 0,15 y 0,8. Si establece el umbral en 0,5, solo se tiene en cuenta una predicción como correcta. Si establece el Umbral de destino en 0,10, se tendrán en cuenta dos predicciones como correctas.
Cuando Umbral de destino se establece en null, que es el valor predeterminado, el estado más probable se utiliza como destino. En el ejemplo anteriormente citado, los tres modelos tendrían predicciones correctas. Por consiguiente, al comparar los modelos, debería considerar el umbral utilizado para cada instancia de la validación cruzada. También puede evaluar las probabilidades malas de todos los casos de un modelo determinado utilizando las medidas Probabilidad mala y Error cuadrático medio que se proporcionan en el informe de la validación cruzada.
Limitaciones al utilizar la ficha Validación cruzada
Si realiza una validación cruzada utilizando el informe de validación cruzada de Business Intelligence Development Studio, existen algunas limitaciones en los modelos que puede probar y en los parámetros que puede establecer.
De forma predeterminada, se realizará una validación cruzada de todos los modelos asociados a la estructura de minería de datos seleccionada. No puede especificar el modelo o una lista de modelos.
No se admite el uso de la validación cruzada en modelos que estén basados en el algoritmo de serie temporal de Microsoft o en el algoritmo de clústeres de secuencia de Microsoft.
No se podrá crear el informe si su estructura de minería de datos no contiene ningún modelo que pueda probar la validación cruzada.
Si la estructura de minería de datos contiene tanto modelos de agrupación en clústeres como modelos de no agrupación en clústeres y no elige la opción Nº de clústeres, los resultados para ambos tipos de modelos se mostrarán en el mismo informe, incluso aunque el atributo, el estado y la configuración del umbral no sean adecuados para el modelo de agrupación en clústeres.
Algunos valores de los parámetros están restringidos. Por ejemplo, se mostrará una advertencia si el número de plegamientos es superior a 10, ya que generar tantos modelos podría resultar en una visualización del informe más lenta.
Si desea especificar la configuración avanzada, debe utilizar los procedimientos almacenados de la validación cruzada. Para obtener más información, vea Procedimientos almacenados de minería de datos (Analysis Services - Minería de datos).
Resultados de la validación cruzada
Después de haber especificado los parámetros y de hacer clic en Actualizar, se mostrarán los resultados de la validación cruzada en la cuadrícula de resultados. En esta sección se explica el contenido de cada columna de la cuadrícula de resultados.
Además de cierta información básica acerca del número de plegamientos en los datos y de la cantidad de datos en cada plegamiento, Analysis Services muestra un conjunto de métricas sobre cada modelo, clasificadas por tipo. La tabla siguiente muestra una lista con las pruebas y las métricas, junto con una explicación del significado de las métricas.
Tipo de prueba |
Medidas y descripciones |
---|---|
Agrupación en clústeres |
Probabilidad de casosIndica la probabilidad de que un caso pertenezca a un clúster determinado.
|
Clasificación |
Verdadero positivoRecuento de casos que cumplen estas condiciones:
Falso positivoRecuento de casos que cumplen estas condiciones:
Verdadero negativoRecuento de casos que cumplen estas condiciones:
Falso negativoRecuento de casos que cumplen estas condiciones:
|
Clasificación |
Error/sin erroresRecuento de casos que cumplen estas condiciones:
|
Probabilidad |
Mejora respecto al modelo predictivoRelación entre la probabilidad de predicción real y la probabilidad marginal en los casos de prueba, excluyendo las filas con valores ausentes. Esta métrica muestra hasta qué punto mejora la probabilidad cuando se utiliza el modelo.
Error cuadrático medioRaíz cuadrada del error medio para todos los casos de partición, dividida por el número de casos de la partición, excluyendo los casos con valores ausentes.
LogaritmoLogaritmo de la probabilidad real para cada caso, sumado y a continuación dividido entre el número de filas del conjunto de datos de entrada, excluyendo los casos con valores ausentes. Dado que la probabilidad se representa como una fracción, los logaritmos son siempre números negativos. Un número próximo a 0 representa una predicción mejor.
|
Estimación |
Error cuadrático medioError medio del valor predicho respecto al valor real, expresado como la raíz cuadrada de la suma media de los errores cuadráticos.
Error absoluto medioSuma del error absoluto para todos los casos de la partición, dividida por el número de casos, excluyendo las filas con valores ausentes.
LogaritmoLogaritmo de la probabilidad real para cada caso, sumado y a continuación dividido entre el número de filas del conjunto de datos de entrada, excluyendo los casos con valores ausentes. Dado que la probabilidad se representa como una fracción, los logaritmos son siempre números negativos. Un número próximo a 0 representa una predicción mejor.
|
Agregados Las medidas agregadas proporcionan una indicación de la varianza en los resultados para cada partición. |
PromedioLa media de los valores de la partición para una medida determinada.
Desviación estándarMedia de la desviación desde el valor medio para una medida concreta, en todas las particiones de un modelo.
|
[!NOTA]
Estas medidas de precisión se calculan para cada atributo de destino, y se puede especificar u omitir un valor de destino para cada atributo. Algunos registros pueden no tener un valor para el atributo de destino, tratándose de un caso especial; recibe el nombre de valor ausente. Las filas que tienen valores ausentes no se consideran al calcular la medida de precisión para un atributo de destino determinado. Además, debido a que las puntuaciones se calculan individualmente para cada atributo, si los valores están presentes para el atributo de destino pero ausentes para otros atributos, la puntuación para el atributo de destino no se verá afectada.