Article
09/27/2010

Graphique de courbes d'élévation (Analysis Services - Exploration de données)

Vous pouvez afficher différents types de graphiques sous l'onglet Graphique de courbes d'élévation qui se trouve sous l'onglet Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données, selon le modèle que vous sélectionnez, l'attribut prévisible contenu dans le modèle ainsi que d'autres paramètres.

Si votre modèle prédit une valeur discrète, vous pouvez créer un graphique de courbes d'élévation ou un graphique des bénéfices. Un graphique de courbes d'élévation compare la précision des prédictions de chaque modèle. Il peut être configuré pour indiquer la précision des prédictions de manière générale ou la précision des prédictions d'une valeur spécifique. Un graphique des bénéfices est un type de graphique associé qui contient les mêmes informations qu'un graphique de courbes d'élévation, mais qui affiche également l'augmentation projetée des bénéfices associée à l'utilisation de chaque modèle. Utilisez la liste Type de graphique pour sélectionner le type de graphique de votre choix.

Remarque Vous ne pouvez pas afficher de modèles de série chronologique dans un graphique de courbes d'élévation ou un graphique des bénéfices, mais vous pouvez afficher un graphique qui contient la série historique et les prédictions se basant sur la série à l'aide de l'onglet Prévision de modèle d'exploration de données. Pour plus d'informations, consultez Algorithme MTS (Microsoft Time Series).

Pour plus d'informations :Graphique des bénéfices (Analysis Services - Exploration de données), Nuage de points (Analysis Services - Exploration de données)

Scénario

L'onglet Graphique de courbes d'élévation affiche une représentation graphique du changement des courbes d'élévation qu'entraîne un modèle d'exploration de données. Par exemple, le service marketing de la société Adventure Works Cycles souhaite créer une campagne de publipostage ciblée. Les campagnes précédentes permettent de déduire qu'un taux de réponse de 10 % est à prévoir. L'entreprise possède une liste de 10 000 clients potentiels stockés dans une table de la base de données. Par conséquent, en fonction du taux de réponse habituel, l'entreprise s'attend à ce que 1 000 clients potentiels répondent.

Toutefois, le budget affecté à ce projet n'est pas suffisant pour contacter les 10 000 clients répertoriés dans la base de données. Le budget affecté permet à l'entreprise d'envoyer une annonce à 5 000 clients seulement. Le service marketing a le choix entre deux possibilités :

sélectionner 5 000 clients cibles au hasard ;
utiliser un modèle d'exploration de données pour cibler les 5 000 clients qui ont le plus de chance de répondre.

Si l'entreprise sélectionne au hasard 5 000 clients, elle peut s'attendre à recevoir seulement 500 réponses, conformément au taux de réponse habituel. Ce scénario est représenté par la ligne aléatoire dans le graphique de courbes d'élévation. Toutefois, si le service marketing utilise un modèle d'exploration de données pour cibler le publipostage, il est possible d'espérer un taux de réponse supérieur, car les clients ciblés sont ceux susceptibles le plus de répondre. Si le modèle est parfait, ce qui signifie qu'il crée des prédictions toujours exactes, la société peut s'attendre à recevoir les 1 000 réponses pour un publipostage aux 1 000 clients potentiels recommandés par le modèle. Ce scénario est représenté par la ligne idéale dans le graphique de courbes d'élévation. En réalité, le modèle d'exploration de données se trouve probablement entre ces deux extrêmes, c'est-à-dire entre une estimation aléatoire et une prédiction parfaite. Toute amélioration par rapport à l'estimation aléatoire est considérée comme une élévation.

Fonctionnement du graphique de courbes d'élévation

Vous pouvez créer deux types de graphiques de courbes d'élévation : l'un dans lequel vous spécifiez une valeur cible pour la colonne prévisible et l'autre dans lequel vous ne spécifiez pas la valeur. Lorsque vous passez de l'onglet Sélection d'entrée à l'onglet Graphique de courbes d'élévation, le graphique est mis à jour pour refléter les modifications apportées aux mappages des colonnes ou autres paramètres.

Graphique de courbes d'élévation avec la valeur cible

Le graphique suivant correspond à un graphique de courbes d'élévation pour le modèle de publipostage ciblé que vous créez dans le Didacticiel sur l'exploration de données de base. Dans ce graphique, l'attribut cible est [Bike Buyer] et la valeur cible est 1, ce qui signifie que le client a acheté un vélo ou est susceptible de le faire. Le graphique de courbes d'élévation indique ainsi l'amélioration que le modèle fournit lors de l'identification des clients susceptibles d'acheter un vélo.

Outre le modèle de base, le graphique inclut un modèle connexe qui a été filtré pour cibler des clients spécifiques. Vous pouvez ajouter plusieurs modèles dans un graphique de courbes d'élévation, tant que les modèles ont tous le même attribut prévisible. Ce filtre restreint les cas utilisés à la fois pour la formation et l'évaluation aux clients de moins de 30 ans. En conséquence, le nombre de cas par rapport auxquels le modèle est évalué diffère pour le modèle de base et le modèle filtré. Il est important de ne pas oublier ce point lorsque vous interprétez les résultats de prédiction et d'autres statistiques.

graphique de courbes d'élévation montrant deux modèles

L'axe x du graphique représente le pourcentage du jeu de données de test utilisé pour comparer les prédictions. L'axe y du graphique représente le pourcentage de valeurs prévues.

La ligne droite diagonale, indiquée ici en bleu, apparaît dans chaque graphique. Elle correspond aux résultats d'estimation aléatoire et représente le niveau de référence par rapport auquel il convient d'évaluer l'élévation. Pour chaque modèle que vous ajoutez dans un graphique de courbes d'élévation, vous obtenez deux lignes supplémentaires : une ligne indique les résultats idéaux pour le jeu de données d'apprentissage si vous pouviez créer un modèle capable de prévoir toujours parfaitement, et la seconde ligne indique l'élévation réelle, ou l'amélioration des résultats, pour le modèle.

Dans cet exemple, la ligne idéale pour le modèle filtré est représentée en bleu foncé et la ligne correspondant à l'élévation réelle figure en jaune. Vous pouvez déduire du graphique que la ligne idéale atteint un maximum à près de 40 %, ce qui signifie que si vous aviez un modèle parfait, vous pourriez contacter 100 % de vos clients ciblés en effectuant un publipostage sur seulement 40 % de la population totale. L'élévation réelle pour le modèle filtré, lorsque vous ciblez 40 % de la population, est comprise entre 60 et 70 %, ce qui signifie que vous pourriez contacter 60 à 70 % de vos clients ciblés en effectuant un publipostage sur 40 % de la population totale des clients.

La légende d'exploration de données contient les valeurs réelles en tout point sur les courbes. Vous pouvez modifier l'emplacement mesuré en cliquant sur la barre grise verticale et en la déplaçant. Dans le graphique, la ligne grise a été placée sur 30 %, car il s'agit du point où les deux modèles filtré et non filtré semblent être les plus efficaces, et après ce point la valeur d'élévation décline.

La légende d'exploration de données contient également des scores et des statistiques qui vous aident à interpréter le graphique. Ces résultats représentent la précision du modèle au niveau de la ligne grise, qui est positionnée dans ce scénario de manière à inclure 30 % de l'ensemble des scénarios de test.

Série, modèle	Score	Population cible	Probabilité de prédiction
Publipostage ciblé global	0.71	47.40%	61.38%
Publipostage ciblé inférieur à 30	0.85	51.81%	46.62%
Modèle d'estimation aléatoire		31.00%
Modèle idéal pour : Publipostage ciblé global		62.48%
Modèle idéal pour : Publipostage ciblé inférieur à 30		65.28%

Vous pouvez déduire de ces résultats que, lorsqu'il est mesuré pour 30 % de tous les cas, le modèle général (Publipostage ciblé global) peut prédire le comportement d'achat de vélos de 47,40 % de la population cible. En d'autres termes, si vous effectuiez un publipostage ciblé sur uniquement 30 % des clients dans votre base de données, vous pourriez contacter légèrement moins de la moitié de votre public cible. Si vous utilisiez le modèle filtré, vous pourriez contacter approximativement 51 % de vos clients ciblés.

La valeur de la probabilité de prédiction représente le seuil requis pour inclure un client parmi les cas « susceptibles d'acheter ». Pour chaque cas, le modèle estime la précision de chaque prédiction et stocke cette valeur, que vous pouvez utiliser pour éliminer par filtrage ou cibler des clients. Par exemple, pour identifier les acheteurs potentiels dans le modèle de base, vous pouvez utiliser une requête pour extraire les cas dont la probabilité de prédiction est d'au moins 61 %. Pour obtenir les clients ciblés par le modèle filtré, vous pouvez créer une requête pour extraire les cas qui satisfont tous les critères : l'âge et une valeur PredictProbability d'au moins 46 %.

Il est intéressant de comparer les modèles. Le modèle filtré semble capturer plus de clients potentiels, mais lorsque vous ciblez les clients avec un score de probabilité de prédiction de 46 %, vous avez également 53 % de chance d'envoyer un courrier de publipostage à quelqu'un qui n'achètera pas de vélo. Par conséquent, si vous décidiez quel modèle est le meilleur, vous souhaiteriez soupeser la précision supérieure et la taille de cible inférieure du modèle filtré par rapport à la capacité de sélection du modèle de base.

La valeur de Score vous aide à comparer des modèles en calculant l'efficacité du modèle sur une population normalisée. Un score plus élevé est meilleur, si bien que dans ce cas vous pouvez conclure que le ciblage des clients de moins de 30 ans est la stratégie la plus efficace, en dépit de la probabilité de prédiction inférieure.

Graphique de courbes d'élévation pour le modèle sans valeur cible

Si vous ne spécifiez pas l'état de la colonne prédictible, vous créez le type de graphique correspondant au diagramme ci-dessous. Ce graphique indique comment le modèle fonctionne pour tous les états de l'attribut prévisible. Par exemple, ce graphique vous indiquerait pour le modèle la qualité de prédiction des deux clients susceptibles d'acheter un vélo et de ceux qui ne sont pas susceptibles d'acheter un vélo.

L'axe x est identique à celui du graphique avec la colonne prévisible spécifiée, mais l'axe y représente à présent le pourcentage de prédictions correctes. Par conséquent, la ligne idéale est la ligne diagonale, qui indique qu'à 50 % des données le modèle prédit correctement 50 % des cas, le maximum qu'il est possible d'attendre.

Graphique de courbes d'élévation affichant les prédictions correctes

Vous pouvez cliquer dans le graphique pour déplacer la barre grise verticale et la légende d'exploration de données indique le pourcentage total de cas et le pourcentage des cas prédits correctement. Par exemple, si vous positionnez la barre grise de curseur sur le repère 50 %, la légende d'exploration de données affiche les scores de précision ci-dessous. Ces illustrations sont basées sur le modèle TM_Decision_Tree créé dans le Didacticiel sur l'exploration de données de base.

Série, modèle	Score	Population cible	Probabilité de prédiction
TM_Decision_Tree	0.77	40.50%	72.91%
Modèle idéal		50.00%

Ce tableau vous indique que pour 50 % de la population, le modèle que vous avez créé prédit correctement 40 % des cas. Vous pouvez considérer ceci comme un modèle raisonnablement précis. Toutefois, souvenez-vous que ce modèle particulier prédit toutes les valeurs de l'attribut prévisible. Par conséquent, le modèle peut être précis pour prédire que 90 % des clients n'achèteront pas de vélo.

[!REMARQUE]

La précision de prédiction pour toutes les valeurs discrètes de l'attribut prévisible est représentée au moyen d'une ligne unique. Si vous souhaitez voir les lignes de précision de prédiction pour toute valeur individuelle de l'attribut prévisible, vous devez créer un graphique de courbes d'élévation distinct pour cette valeur.

Retour en haut