Medir la precisión del modelo de minería de datos (Analysis Services - Minería de datos)
SQL ServerAnalysis Services proporciona diversas maneras de determinar si los modelos de minería de datos son precisos.
Puede utilizar gráficos para representar visualmente la precisión de un modelo de minería de datos: un gráfico de elevación compara la exactitud de las predicciones de cada modelo. Un gráfico de beneficios muestra el aumento teórico en las ganancias asociadas a la utilización de cada modelo. Un gráfico de dispersión compara los valores reales con los valores previstos y se utiliza para los modelos de regresión u otros modelos que predicen atributos continuos utilizando entradas continuas.
Puede utilizar una matriz de clasificación para tabular las predicciones precisas y las predicciones inexactas.
Puede utilizar la validación cruzada para validar estadísticamente la confiabilidad de un modelo de minería de datos.
Para obtener más información, vea Herramientas de gráficos de precisión de modelos (Analysis Services - Minería de datos). Todos los tipos de gráfico descritos en este tema también se pueden crear mediante programación utilizando XML/A o AMO. Para obtener más información acerca de la programación de soluciones de Analysis Services, vea Guía del desarrollador (Analysis Services - Minería de datos).
[!NOTA]
Después de determinar que la precisión del modelo es razonable, se deben evaluar sus resultados en el contexto del problema empresarial para cuya respuesta fue diseñado.
En este tema se explica el flujo de trabajo general en Business Intelligence Development Studio o SQL Server Management Studio para medir la precisión de un modelo de minería de datos. Dependiendo del tipo de modelo de minería de datos que use y del gráfico que elija, algunas opciones podrían ser ligeramente diferentes, no estar disponibles o configurarse de forma predeterminada, pero el proceso general es el siguiente:
Elija un modelo o estructura que probar.
Elija los datos de prueba.
Si lo desea, filtre los datos de prueba.
Elija un tipo de gráfico y ábralo en el visor adecuado.
Si lo desea, personalice el gráfico.
Para obtener un procedimiento paso a paso, vea Cómo crear un gráfico de precisión para un modelo de minería de datos.
Elegir un modelo o estructura
Es habitual construir varios modelos de minería de datos para cada estructura de minería de datos, y utilizar un conjunto de parámetros o algoritmo diferente para cada modelo. Analysis Services facilita las pruebas de varios modelos de minería de datos relacionados en el mismo gráfico. Sin embargo, también se puede seleccionar un único modelo de minería de datos para mostrarlo en un gráfico de precisión.
En Business Intelligence Development Studio, seleccione una estructura de minería de datos y, a continuación, haga clic en la ficha Gráfico de precisión de minería de datos para abrir un área de diseño para los gráficos de precisión. En SQL Server Management Studio, haga clic con el botón secundario en la estructura de minería de datos y, a continuación, seleccione Ver gráfico de elevación para abrir la misma área de diseño y crear cualquier tipo de gráfico de precisión.
Si agrega varios modelos de minería de datos a un gráfico, debe elegir los modelos que tengan el mismo atributo de predicción. Si crea un gráfico de elevación, un gráfico de beneficios, un gráfico de dispersión o una matriz de clasificación, puede elegir qué modelos desea incluir en el gráfico utilizando la ficha Selección de entrada. Sin embargo, si crea un informe de validación cruzada, Analysis Services analizará todos los modelos que tengan el mismo atributo de predicción.
Elegir los datos de prueba
Para poder crear un gráfico de elevación, un gráfico de beneficios o un gráfico de dispersión, debe especificar los datos que desea utilizar al evaluar el modelo. Dado que los datos que utilice para la evaluación afectarán sustancialmente a los resultados de la misma, SQL Server 2008Analysis Services proporciona las opciones siguientes para especificar los datos de prueba:
Utilizar una partición de exclusión que se definió como conjunto de prueba a la hora de crear la estructura de minería de datos. Si usa una parte de los datos de la estructura de minería de datos como datos de prueba, podrá medir todos los modelos de la estructura de forma coherente.
Definir un origen de datos externo para utilizarlo como datos de prueba.
Definir un origen de datos externo y aplicar filtros para restringir los datos a un subconjunto de casos que sea relevante. Si define un filtro, puede seleccionar los datos de prueba que cumplan ciertas condiciones o que contengan casos que tengan un interés en particular.
Utilizar un filtro aplicado a los casos de entrenamiento utilizados por el modelo. Si define un filtro de modelos, puede restringir los casos a un subconjunto de los datos y asegurarse también de que un modelo determinado siempre se evaluará utilizando datos similares.
Si crea un informe de validación cruzada en Business Intelligence Development Studio o SQL Server Management Studio, Analysis Services utiliza de forma predeterminada la partición de extracción definida para el modelo, si existe. Si no se ha definido ninguna partición de extracción, Analysis Services utiliza el conjunto completo de casos de entrenamiento.
Si crea un gráfico de elevación, un gráfico de beneficios, un gráfico de dispersión o una matriz de clasificación en Business Intelligence Development Studio o SQL Server Management Studio, debe usar la ficha Selección de entrada en la vista Gráfico de precisión de minería de datos del Diseñador de minería de datos para especificar los datos que se han de utilizar para probar los modelos de minería de datos. Las opciones son las siguientes:
Usar casos de pruebas de modelo de minería de datos
Los casos de prueba del modelo de minería se toman a partir de los mismos datos que se encuentran en la estructura de minería de datos, pero aplicando un filtro al modelo para restringir los casos utilizados en la prueba. Un filtro de modelos es un conjunto de condiciones que se pueden crear y después almacenar junto con el modelo de minería de datos. Dado que la condición de filtro se guarda junto con el modelo de minería de datos, se aplicará de forma predeterminada cuando entrene el modelo. Al probar un modelo, puede utilizar el filtro tal cual, o puede utilizar un conjunto de datos diferente para la prueba y así omitir el filtro de modelos. Si desea cambiar el filtro que se aplica a un modelo de minería de datos, puede modificar el filtro de modelos y, a continuación, volver a procesar el modelo. Como alternativa, puede crear una copia del modelo y, a continuación, generar un filtro diferente en la copia.
Para obtener más información acerca de los filtros de modelos, vea Crear filtros para modelos de minería (Analysis Services - Minería de datos).
Para obtener una descripción de cómo crear un filtro en un modelo de minería, vea Cómo aplicar un filtro a un modelo de minería de datos.
Usar casos de pruebas de estructura de minería de datos
Puede utilizar esta opción para medir la precisión en caso de que definiera un conjunto de datos de pruebas cuando creó la estructura de minería de datos, definiendo un porcentaje de precisión o un número máximo de casos a utilizar para la exclusión. La definición del conjunto de pruebas se almacena con la estructura. Por consiguiente, el conjunto de pruebas se puede utilizar con cualquier modelo que esté basado en la estructura.
[!NOTA]
No se puede crear directamente un filtro en los datos de exclusión de la estructura de minería de datos. Sin embargo, si desea filtrar estos datos, una solución alternativa puede ser la reutilización de la vista del origen de datos original como origen de datos externo y la aplicación de un filtro al origen de datos externo.
Para obtener más información, vea Crear particiones de los datos en conjuntos de entrenamiento y de pruebas (Analysis Services - Minería de datos).
Especificar otro conjunto de datos
En SQL Server 2005, la única manera de probar la precisión de un modelo de minería era utilizar conjuntos de datos externos. Esta opción todavía está disponible en SQL Server 2008, pero ahora también se puede definir un filtro en los datos externos.
Para utilizar un origen de datos externo, cualquier columna de los datos externos que desee usar para la entrada se debe asignar a las columnas del modelo de minería de datos. Puede tomar la decisión de omitir algunas columnas, pero el conjunto de datos externo debe contener al menos una columna que se pueda asignar a la columna de predicción del modelo de minería de datos. Dependiendo del modelo, quizá sea necesario asignar una o varias columnas de los datos externos que tengan los atributos requeridos para la predicción.
En el Diseñador de minería de datos, utilice la ficha Selección de entrada y el cuadro de diálogo Especificar asignación de columnas para seleccionar la tabla de entrada contra la que se validarán los modelos. Cuando selecciona una tabla de entrada, las columnas de las tablas Estructura de minería de datos y Seleccionar tabla(s) de entrada se asignan automáticamente entre sí. Puede modificar las asignaciones según sea necesario; para ello, haga clic en una columna de la tabla Estructura de minería de datos y arrástrela hasta la tabla Seleccionar tabla(s) de entrada. Si los datos de entrada contienen una tabla anidada, también puede incluir esta tabla utilizando el vínculo Seleccionar tabla anidada.
[!NOTA]
La columna de predicción siempre debe estar asignada. Las columnas que no estén asignadas se cargarán con valores NULL en el modelo de minería de datos.
Después de haber asignado las columnas correspondientes, puede especificar, opcionalmente, un estado de destino para la columna de predicción. Si deja el estado de la columna de predicción en blanco, el gráfico de elevación predice la calidad del comportamiento del modelo independientemente del estado de la columna de predicción. Para obtener más información sobre las diferencias entre la creación de gráficos de elevación con o sin un estado especificado de la columna de predicción, vea Gráfico de elevación (Analysis Services - Minería de datos).
También tiene la opción de crear un filtro en los datos externos. Para obtener una descripción de cómo crear un filtro, vea Cómo filtrar las filas de entrada para un gráfico de precisión.
La opción Sincronizar valores y columnas de predicción coordina los atributos de predicción del origen de datos externo y del modelo de minería de datos de forma que, incluso si tienen un nombre diferente, se deriven de la misma columna de predicción durante el entrenamiento del modelo. Esto resulta útil si tiene dos columnas de estructura de minería de datos que señalan los mismos datos subyacentes, pero siendo probable que las columnas tengan etiquetas diferentes.
Si desactiva la casilla Sincronizar valores y columnas de predicción, puede seleccionar cualquier columna y valor de predicción válidos, y los resultados se trazan juntos, incluso si no tienen sentido. Puede desactivar esta opción si intenta comparar dos atributos predecibles que no están asignados explícitamente al mismo conjunto de valores. Sin embargo, debe saber que los dos atributos pueden no ser comparables en lo que respecta a la precisión. Por ejemplo, un modelo que discretiza el ingreso en depósitos como Alto, Medio y Bajo podría ser comparable a un modelo que agrupa los ingresos en intervalos de 150.000+, 50.000-100.000 y 10.000-50.000. Sin embargo, antes de desactivar la casilla, debe comprobar que los atributos son comparables.
Para obtener más información:Cómo seleccionar una columna de predicción para un gráfico de precisión, Usar las herramientas de minería de datos
Filtrar datos
Puede filtrar los datos que se utilizan para entrenar y probar un modelo de minería de datos de las siguientes maneras:
Creando un filtro que se almacene junto con el modelo.
Aplicando un filtro a un origen de datos externo.
Al definir un filtro, realmente está creando una cláusula WHERE en los datos de entrada. Si está filtrando un conjunto de datos de entrada que se usa para evaluar un modelo, la expresión del filtro se traduce a una instrucción de Transact-SQL y se aplica a la tabla de entrada en el momento de crear el gráfico. Como resultado, se puede reducir en gran medida el número de casos de prueba.
Por contra, al aplicar un filtro a un modelo de minería de datos, la expresión del filtro que cree se traducirá a una instrucción de Extensiones de minería de datos (DMX) y se aplicará al modelo individual. Al aplicar un filtro a un modelo, sólo se utilizará un subconjunto de los datos originales para entrenar el modelo. Si define un conjunto de datos de pruebas en el momento de crear la estructura, entre los casos del modelo utilizados para el entrenamiento sólo se incluyen los que se encuentran en el conjunto de entrenamiento de la estructura de minería de datos y que cumplen con las condiciones del filtro. Además, al seleccionar la opción Usar casos de prueba de modelo de minería de datos, entre los casos de prueba sólo se incluyen los que se encuentran en el conjunto de prueba de la estructura de minería de datos y que cumplen las condiciones del filtro. Las condiciones del filtro también se aplican a las consultas de obtención de detalles de los casos del modelo.
Sin embargo, si no definió un conjunto de datos de exclusiones, en los casos del modelo utilizados para la prueba se incluyen todos los casos del conjunto de datos que cumplan las condiciones de filtro.
Por consiguiente, es posible que distintos modelos tengan diferentes filtros, incluso si están basados en la misma estructura de minería de datos. Como resultado, éstos pueden utilizar diferentes datos para el entrenamiento y las pruebas. Si selecciona la opción Usar casos de prueba de modelo de minería de datos en el momento de crear el gráfico de precisión, debe tener en cuenta que el número total de casos de los conjuntos de prueba y entrenamiento puede variar significativamente dependiendo de los modelos que se estén probando.
[!NOTA]
Si agrega un filtro a un modelo de minería ya existente, o si cambia las condiciones del filtro, debe volver a procesar el modelo de minería para ver los efectos producidos por el filtro.
Para revisar los casos de entrenamiento reales que se utilizaron, puede crear una consulta de contenido DMX, como la siguiente:
SELECT * from <model>.CASES WHERE IsTrainingCase()
o bien:
SELECT * from <model>.CASES WHERE IsTestCase()
Para comparar estos casos con los casos de la estructura, cree la consulta de contenido DMX siguiente:
SELECT * FROM <structure>.CASES WHERE IsTestCase()
[!NOTA]
Para ejecutar una consulta de contenido en los caso del modelo, debe habilitar Drillthough en el modelo.
Para obtener más información sobre los tipos de filtros que se pueden aplicar y cómo se evalúan las expresiones de filtro, vea Sintaxis y ejemplos del filtro de modelos (Analysis Services: Minería de datos).
Elegir un tipo de gráfico y ver el gráfico
Según el tipo de gráfico que elija, puede seguir configurando las opciones, examinar el gráfico o copiarlo en el Portapapeles y trabajar con los datos en Excel.
Nota Los gráficos y sus definiciones no se guardan. Si cierra la ventana que contiene un gráfico, debe volverlo a crear.
Gráfico de elevación
Después de configurar las opciones para los modelos y los datos de prueba, haga clic en la ficha Gráfico de elevación para ver los resultados. También puede copiar el gráfico en el Portapapeles o ver detalles de puntos de datos o líneas de tendencia individuales en la Leyenda de minería de datos.
Para obtener más información, vea Gráfico de elevación (Analysis Services - Minería de datos) y Ficha Gráfico de elevación (vista Gráfico de precisión de minería de datos).
Gráfico de beneficios
Después de configurar las opciones de los modelos y los datos de prueba, haga clic en la ficha Gráfico de elevación, seleccione Gráfico de beneficios en la lista Tipo de gráfico para establecer las opciones del gráfico de beneficios y, a continuación, haga clic en Aceptar para ver los resultados. Puede utilizar el cuadro de diálogo Configuración del gráfico de beneficios tantas veces como desee para probar opciones de costo diferentes y volver a mostrar el gráfico. La Leyenda de minería de datos contiene información detallada sobre las ventajas estimadas de cada modelo. También puede copiar el gráfico y el contenido de la Leyenda de minería de datos en el Portapapeles para trabajar con ellos en Excel.
Para obtener más información, vea Gráfico de beneficios (Analysis Services - Minería de datos) y Configuración del gráfico de beneficios (cuadro de diálogo de la vista Gráfico de precisión de minería de datos).
Gráfico de dispersión
Si ha seleccionado el tipo adecuado de modelo, al hacer clic en la ficha Gráfico de elevación, el tipo de gráfico se establece automáticamente en Gráfico de dispersión y se muestra un gráfico de dispersión. No se puede realizar ninguna otra configuración. También puede copiar el gráfico en el Portapapeles y pegarlo como un gráfico en Excel u otra aplicación.
Para obtener más información, vea Gráfico de dispersión (Analysis Services - Minería de datos).
Matriz de clasificación
En una matriz de clasificación, utilice la ficha Selección de entrada para elegir los modelos y los datos de prueba y, a continuación, haga clic en la ficha Matriz de clasificación para ver los resultados. El contenido de una matriz de clasificación es el mismo para todos los tipos de modelo y no se puede configurar. También puede copiar los datos del gráfico en el Portapapeles y, a continuación, trabajar con ellos en Excel.
Para obtener más información, vea Matriz de clasificación (Analysis Services - Minería de datos) o Ficha Matriz de clasificación (vista Gráfico de precisión de minería de datos).
Informe de validación cruzada
En un informe de validación cruzada, después de seleccionar una estructura o un modelo de minería de datos en el Explorador de soluciones, haga clic en la ficha Validación cruzada, configure todas las opciones pertinentes y, a continuación, haga clic Obtener resultados para generar el informe. No se puede realizar ninguna otra configuración. El formato del informe de validación cruzada es el mismo para todos los tipos de modelo y no se puede configurar. Sin embargo, el contenido del informe difiere según sea el tipo de modelo que se esté analizando y el tipo de datos del atributo de predicción. También puede copiar los resultados del informe en el Portapapeles y trabajar con ellos en Excel.
Para obtener más información, vea Validación cruzada (Analysis Services - Minería de datos) o Informe de validación cruzada (Analysis Services - Minería de datos).