Gráfico de mejora respecto al modelo predictivo (Analysis Services - Minería de datos)
Un Gráfico de mejora respecto al modelo predictivo representa gráficamente la mejora que proporciona un modelo de minería de datos en comparación con una estimación aleatoria, y mide el cambio en términos de puntuación de la mejora respecto al modelo predictivo. Al comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del conjunto de datos y para los distintos modelos, puede determinar cuál es el mejor modelo y qué porcentaje de casos del conjunto de datos se beneficiaría de aplicar las predicciones del modelo.
Con un gráfico de mejora respecto al modelo predictivo, puede comparar la precisión de las predicciones para varios modelos que tienen el mismo atributo de predicción. También puede evaluar la exactitud de la predicción para un único resultado (un único valor del atributo de predicción) o para todos los resultados (todos los valores del atributo especificado).
Un gráfico de beneficios es un tipo de gráfico relacionado que contiene la misma información que un gráfico de mejora respecto al modelo predictivo, pero que también muestra el aumento proyectado en los beneficios asociado al uso de cada modelo.
Descripción del gráfico de mejora respecto al modelo predictivo
Puede resultar difícil entender los gráficos de mejora respecto al modelo predictivo como concepto abstracto. Por consiguiente, para ilustrar el uso de las herramientas del gráfico de mejora respecto al modelo predictivo y la información del gráfico, en esta sección se muestra un escenario en el que se usa un gráfico de mejora respecto al modelo predictivo para calcular la respuesta a una campaña de envío de correo directo.
El departamento de marketing de este escenario sabe que las campañas de correo suelen tener más o menos una tasa de respuesta del 10 por ciento. Tienen una lista de 10.000 clientes potenciales almacenada en una tabla de la base de datos. Según el índice típico de respuesta, normalmente pueden esperar que solo respondan unos 1.000 clientes potenciales. Sin embargo, el dinero presupuestado para el proyecto no es suficiente para llegar a los 10.000 clientes de la base de datos, y desean mejorar la tasa de respuesta. Para este escenario, supongamos que el presupuesto solo les permite enviar un anuncio a 5.000 clientes. El departamento de marketing tiene dos opciones:
Seleccionar aleatoriamente 5.000 clientes como objetivo.
Usar un modelo de minería de datos para dirigirse a los 5.000 clientes con mayores probabilidades de respuesta.
Mediante un gráfico de mejora respecto al modelo predictivo, puede comparar los resultados esperados de ambas opciones. Por ejemplo, si la compañía seleccionara de forma aleatoria 5.000 clientes, podrían esperar recibir solo 500 respuestas, según la tasa de respuesta típica. La línea aleatoria del gráfico de mejora respecto al modelo predictivo representa esta situación. Sin embargo, si el departamento de marketing usara un modelo de minería de datos para dirigir la distribución de correo, podría esperar un mejor índice de respuesta debido a que el modelo identificaría los clientes que tienen más probabilidades de responder. Si el modelo fuera perfecto, crearía predicciones infalibles y la empresa podría esperar recibir 1.000 respuestas con solo enviar la distribución de correo a los 1.000 clientes potenciales recomendados por el modelo. La línea ideal del gráfico de mejora respecto al modelo predictivo representa esta situación.
La realidad es que el modelo de minería de datos probablemente se sitúa entre estos dos extremos, entre una estimación aleatoria y una predicción perfecta. Cualquier mejora con respecto a la estimación aleatoria se considera una "mejora respecto al modelo predictivo".
Al crear un gráfico de mejora respecto al modelo predictivo, puede ponerse como objetivo un valor específico y medir la mejora respecto al modelo predictivo solo para ese resultado o puede crear una evaluación general del modelo que mida las mejoras respecto al modelo predictivo para todos los resultados posibles. Estas selecciones afectan al gráfico final, como se describe en las secciones siguientes.
Gráfico de mejora respecto al modelo predictivo con un valor de destino
El gráfico siguiente muestra un gráfico de mejora respecto al modelo predictivo para el modelo Targeted Mailing que se crea en el Tutorial básico de minería de datos. En este gráfico, el atributo de destino es [Bike Buyer] y el valor de destino es 1, lo que significa que se prevé que el cliente compre una bicicleta. El gráfico de mejora respecto al modelo predictivo muestra así la mejora proporcionada por el modelo al identificar a estos posibles clientes.
Este gráfico contiene varios modelos basados en los mismos datos. Uno de ellos se ha personalizado para dirigirse a clientes concretos. Puede personalizar un modelo agregando filtros para los datos usados para entrenarlo. Este filtro restringe los casos que se usan tanto en el entrenamiento como en la evaluación a los clientes menores de 30 años. Observe que un efecto del filtrado es que el modelo básico y el modelo filtrado usan conjuntos de datos distintos, por lo que el número de casos usados para la evaluación en el gráfico de mejora respecto al modelo predictivo también es diferente. Es importante recordar este punto al interpretar los resultados de predicción y otras estadísticas.
El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.
La línea recta diagonal, mostrada aquí en azul, aparece en cada gráfico. Representa los resultados de la estimación aleatoria y es la línea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo que agrega a un gráfico de mejora respecto al modelo predictivo, obtiene dos líneas adicionales: una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente; y la segunda línea muestra la mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo.
En este ejemplo, la línea ideal para el modelo filtrado se muestra en azul marino y la línea para la mejora respecto al modelo predictivo real en amarillo. Puede deducir del gráfico que la línea ideal alcanza el máximo cerca del 40 por ciento, lo que significa que si tuviera un modelo perfecto, podría llegar al 100 por ciento de los clientes de destino enviando correo únicamente al 40 por ciento de la población total. La mejora respecto al modelo predictivo real para el modelo filtrado al destinarse al 40 por ciento de la población está entre el 60 y el 70 por ciento, lo que significa que se podría llegar al 60 ó 70 por ciento de los clientes de destino enviando correo al 40 por ciento de la población total de clientes.
La Leyenda de minería de datos contiene los valores reales de cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo clic en la barra gris vertical y moviéndola. En el gráfico, la línea gris se ha movido al 30 por ciento, porque se trata del punto donde tanto el modelo filtrado como el modelo sin filtrar parecen ser más eficientes, y después de este punto la cantidad de mejora respecto al modelo predictivo decae.
La Leyenda de minería de datos también contiene puntuaciones y estadísticas que ayudan a interpretar el gráfico. Estos resultados representan la exactitud del modelo en la línea gris, que en este escenario está situada para que incluya el 30 por ciento de los casos de prueba totales.
Serie y modelo |
Puntuación |
Población de destino |
Probabilidad de predicción |
---|---|---|---|
Correo destinado a todos |
0.71 |
47.40% |
61.38% |
Correo destinado a menores de 30 |
0.85 |
51.81% |
46.62% |
Modelo de estimación aleatoria |
|
31.00% |
|
Modelo ideal para: correo destinado a todos |
|
62.48% |
|
Modelo ideal para: correo destinado a menores de 30 |
|
65.28% |
|
Interpretación de los resultados
En estos resultados puede ver que, cuando se mide en el 30 por ciento de todos los casos, el modelo general, [Correo destinado a todos], puede predecir el comportamiento de compra de bicicletas en el 47,40% de la población de destino. En otras palabras, si enviara correo directo solo al 30 por ciento de los clientes de la base de datos, podría llegar a algo menos de la mitad de los destinatarios pretendidos. Si usara el modelo filtrado, podría obtener resultados ligeramente mejores y llegar aproximadamente al 51 por ciento de los clientes de destino.
El valor de Probabilidad de predicción representa el umbral necesario para incluir un cliente entre los casos "con probabilidad de comprar". Para cada caso, el modelo calcula la exactitud de cada predicción y almacena ese valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para identificar los clientes del modelo básico que son compradores probables, utilizaría una consulta para recuperar los casos con una probabilidad de predicción de al menos el 61 por ciento. Para obtener los clientes de destino del modelo filtrado, crearía una consulta que recuperara los casos que cumplieran todos los criterios: la edad y un valor de PredictProbability de al menos el 46 por ciento.
Es interesante comparar los modelos. El modelo filtrado parece capturar más clientes potenciales, pero al elegir a los clientes con una puntuación de probabilidad de predicción del 46 por ciento, también tiene una posibilidad del 53 por ciento de enviar correo a alguien que no va a comprar una bicicleta. Por consiguiente, si estuviera decidiendo qué modelo es mejor, sería conveniente equilibrar la mayor precisión y el menor tamaño de destino del modelo filtrado con respecto a la capacidad de selección del modelo básico.
El valor de Puntuación ayuda a comparar los modelos calculando la efectividad del modelo a través de una población normalizada. Una mayor puntuación es mejor, de modo que en este caso podría decidir que seleccionar a los clientes menores de 30 años es la estrategia más eficiente, a pesar de la menor probabilidad de predicción.
Gráfico de mejora respecto al modelo predictivo para un modelo sin valor de destino
Si no especifica el estado de la columna de predicción, puede crear el tipo de gráfico que se muestra en el diagrama siguiente. Este gráfico muestra el modo en que el modelo se comporta para todos los estados del atributo de predicción. Por ejemplo, este gráfico le indicaría hasta qué punto el modelo predice bien tanto los clientes que es probable que compren una bicicleta como los que no es probable que la compren.
El eje X es el mismo que en el gráfico con la columna de predicción especificada, pero ahora el eje Y representa el porcentaje de predicciones correctas. Por consiguiente, la línea ideal es la línea diagonal, que muestra que en el 50 por ciento de los datos, el modelo predice correctamente el 50 por ciento de los casos, el máximo que se puede esperar.
Puede hacer clic en el gráfico para mover la barra gris vertical y la Leyenda de minería de datos muestra el porcentaje de casos total y el porcentaje de casos que se predijeron correctamente. Por ejemplo, si coloca la barra deslizante gris en la marca del 50 por ciento, la Leyenda de minería de datos muestra las puntuaciones de precisión siguientes. Estas cifras se basan en el modelo TM_Decision Tree creado en el Tutorial básico de minería de datos.
Serie, Modelo |
Puntuación |
Población de destino |
Probabilidad de predicción |
---|---|---|---|
TM_Decision Tree |
0.77 |
40.50% |
72.91% |
Modelo ideal |
|
50.00% |
|
En esta tabla se indica que, en el 50 por ciento de la población, el modelo que creó predice correctamente el 40 por ciento de los casos. Podría considerar este un modelo bastante preciso. Sin embargo, recuerde que este modelo determinado predice todos los valores del atributo de predicción. Por consiguiente, el modelo podría ser preciso para predecir que el 90 por ciento de los clientes no comprarán una bicicleta.
Volver al principio
Restricciones de los gráficos de mejora respecto al modelo predictivo
Los gráficos de mejora respecto al modelo predictivo requieren que el atributo de predicción sea un valor discreto. Es decir, no puede usar gráficos de mejora respecto al modelo predictivo para medir la exactitud de los modelos que predicen valores numéricos continuos.
La exactitud de la predicción para todos los valores discretos del atributo de predicción se muestra en una única línea. Si desea ver las líneas de exactitud de la predicción para cualquier valor individual del atributo de predicción, debe crear un gráfico de mejora respecto al modelo predictivo independiente para cada valor de destino.
Puede agregar varios modelos a un gráfico de mejora respecto al modelo predictivo, siempre que todos los modelos tengan el mismo atributo de predicción. Los modelos que no compartan el atributo no estarán disponibles para la selección en la pestaña Entrada.
No puede mostrar modelos de serie temporal en un gráfico de mejora respecto al modelo predictivo ni en un gráfico de beneficios. Una práctica común para medir la precisión de las predicciones de serie temporal consiste en reservar una parte de los datos históricos y comparar estos datos con las predicciones. Para obtener más información, vea Algoritmo de serie temporal de Microsoft.
Contenido relacionado
Los temas siguientes contienen más información acerca de cómo puede crear y usar gráficos de mejora respecto al modelo predictivo.
Temas |
Vínculos |
---|---|
Ver una visita guiada que explica cómo se crea un gráfico de mejora respecto al modelo predictivo para el modelo de distribución de correo directo. |
|
Explica los tipos de gráficos relacionados. |
Gráfico de dispersión (Analysis Services - Minería de datos) Medidas en el informe de validación cruzada Gráfico de beneficios (Analysis Services - Minería de datos) |
Describe los pasos necesarios para crear gráficos de mejora respecto al modelo predictivo y otros gráficos de precisión. |
Tareas y procedimientos de prueba y validación (minería de datos) |