Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La validation croisée est un outil standard dans l’analytique et constitue une fonctionnalité importante pour vous aider à développer et affiner les modèles d’exploration de données. Vous utilisez la validation croisée après avoir créé un modèle d’exploration de données pour vérifier la validité du modèle et comparer ses résultats avec d’autres modèles d’exploration de données connexes.
La validation croisée se compose de deux phases : la formation et la génération de rapports. Vous effectuerez les étapes suivantes :
Sélectionnez une structure d’exploration de données cible ou un modèle d’exploration de données.
Spécifiez la valeur cible le cas échéant.
Spécifiez le nombre de sections croisées ou de plis dans lesquels partitionner les données de structure.
L’Assistant de Validation croisée crée ensuite un modèle sur chacun des plis, teste le modèle sur les autres plis, puis indique la précision du modèle. Une fois l’exécution terminée, l’Assistant Validation croisée crée un rapport qui vous montre les métriques de chaque pli et fournit un résumé du modèle dans son ensemble. Ces informations peuvent être utilisées pour déterminer la qualité des données sous-jacentes pour un modèle ou pour comparer différents modèles basés sur les mêmes données.
Utilisation de l’Assistant Validation croisée
Vous pouvez utiliser la validation croisée par rapport aux modèles temporaires et aux modèles stockés sur une instance d’Analysis Services.
Pour créer un rapport de validation croisée
Dans le groupe Précision et validation du ruban Exploration de données , cliquez sur Validation croisée.
Dans la boîte de dialogue Sélectionner une structure ou un modèle, sélectionnez une structure d'exploration de données ou un modèle d'exploration de données existant. Si vous sélectionnez une structure, l'assistant utilise la validation croisée de tous les modèles basés sur cette structure qui ont le même attribut prévisible. Si vous sélectionnez un modèle, l’Assistant utilise la validation croisée par rapport à ce modèle uniquement.
Dans la boîte de dialogue Spécifier les paramètres de validation croisée, dans la zone Nombre de plis, choisissez le nombre de plis pour diviser le jeu de données. Un pli est une section croisée sélectionnée aléatoirement des données.
Si vous le souhaitez, définissez le nombre maximal de lignes à utiliser dans la validation croisée en tapant un nombre dans la zone de texte Nombre maximal de lignes .
Remarque
Plus vous utilisez de lignes, plus les résultats sont précis. Toutefois, le temps de traitement peut également augmenter considérablement. Le nombre que vous choisissez dépend de vos données, mais en général, vous devez choisir le nombre le plus élevé que vous pouvez sans sacrifier les performances. Pour améliorer les performances, vous pouvez également spécifier moins de plis.
Sélectionnez une colonne dans la liste déroulante Attribut cible . La liste affiche uniquement les colonnes qui ont été configurées en tant qu’attributs prédictibles lorsque vous avez créé le modèle à l’origine. Le modèle peut contenir plusieurs attributs prédictibles, mais vous ne pouvez en choisir qu’un.
Sélectionnez une valeur dans la liste déroulante État cible .
Si la colonne prédictible contient des données numériques continues, cette option n’est pas disponible.
Si vous le souhaitez, spécifiez une valeur à utiliser comme Target Threshold pour compter les prédictions comme précises. Cette valeur est exprimée sous la forme d’une probabilité, qui est un nombre compris entre 0 et 1, où 1 signifie que la prédiction est garantie d’être exacte, 0 signifie qu’il n’y a aucune chance que la prédiction soit correcte, et .5 est identique à une estimation aléatoire.
Si la colonne prédictible contient des données numériques continues, cette option n’est pas disponible.
Cliquez sur Terminer. Une nouvelle feuille de calcul est créée, nommée Validation croisée.
Remarque
Microsoft Excel peut temporairement ne pas répondre pendant que le modèle est partitionné en plis et que chaque pliage est testé.
Spécifications
Pour créer un rapport de validation croisée, vous devez avoir déjà créé une structure d’exploration de données et des modèles associés. L’Assistant fournit une boîte de dialogue pour vous aider à choisir parmi la structure et les modèles existants.
Si vous choisissez une structure d’exploration de données qui prend en charge plusieurs modèles d’exploration de données et que les modèles utilisent différents attributs prédictibles, l’Assistant Validation croisée teste uniquement les modèles qui partagent le même attribut prédictible.
Si vous choisissez une structure qui prend en charge les modèles de clustering et d’autres types de modèles, les modèles de clustering ne seront pas testés.
Présentation des résultats de la validation croisée
Les résultats de la validation croisée sont affichés dans une nouvelle feuille de calcul, intitulée Rapport de validation croisée pour <le nom> d’attribut. La nouvelle feuille de calcul contient plusieurs sections : la première section est un résumé qui fournit des métadonnées importantes sur le modèle testé, afin que vous puissiez savoir quel modèle ou structure les résultats sont nécessaires.
La deuxième section du rapport fournit un résumé statistique qui indique la qualité du modèle d’origine. Dans ce résumé, les différences entre les modèles créés pour chaque pliage sont analysées pour trois mesures clés : erreur carrée moyenne racine, erreur absolue moyenne et score de journal. Il s’agit de mesures statistiques standard utilisées non seulement dans l’exploration de données, mais aussi dans la plupart des types d’analyse statistique.
Pour chacune de ces mesures, l'assistant de validation croisée calcule la moyenne et l’écart type à travers l'ensemble du modèle. Cela vous indique la cohérence du modèle lorsque la prédiction sur différents sous-ensembles des données est cohérente. Par exemple, si l’écart type est très important, cela indique que les modèles créés pour chaque pli ont des résultats très différents et, par conséquent, le modèle pourrait s'être trop concentré sur un groupe particulier de données et pourrait ne pas être applicable à d'autres ensembles de données.
La section suivante explique les mesures utilisées pour évaluer les modèles.
Tests et mesures
Outre quelques informations de base sur le nombre de plis dans les données et la quantité de données dans chaque pli, la feuille de calcul affiche un ensemble de métriques sur chaque modèle, classées par type de test. Par exemple, la précision d’un modèle de clustering est évaluée par différents tests que vous utiliseriez pour un modèle de prévision.
Le tableau suivant répertorie les tests et les métriques, avec une explication de ce que signifie la métrique.
Agrégats et mesures statistiques générales
Les mesures agrégées fournies dans le rapport indiquent comment les plis que vous avez créés dans les données diffèrent les uns des autres.
Moyenne et écart type.
Moyenne de l’écart par rapport à la moyenne d’une mesure spécifique, sur toutes les partitions d’un modèle.
Classification : Réussite/Échec
Cette mesure est utilisée dans les modèles de classification lorsque vous ne spécifiez pas de valeur cible pour l’attribut prédictible. Par exemple, si vous créez un modèle qui prédit plusieurs possibilités, cette mesure vous indique comment le modèle a bien prédit toutes les valeurs possibles.
Réussite/Échec est calculée en comptant les cas qui répondent aux conditions suivantes : réussi si l’état prédit avec la probabilité la plus élevée est identique à l’état d’entrée et si la probabilité est supérieure à la valeur que vous avez spécifiée pour le seuil d’état ; sinon, échec.
Classification : vrai ou faux positifs et négatifs
Ce test est utilisé pour tous les modèles de classification qui ont une cible spécifiée. La mesure indique comment chaque cas est classé en réponse à ces questions : ce que le modèle a prédit et quel était le résultat réel.
| Mesure | Descriptif |
|---|---|
| Vrai positif | Nombre de cas répondant à ces conditions : Case contient la valeur cible. Le modèle prédit que ce cas contient la valeur cible. |
| Faux positif | Nombre de cas répondant à ces conditions : La valeur réelle est égale à la valeur cible. Le modèle prédit que ce cas contient la valeur cible. |
| Vrai négatif | Nombre de cas répondant à ces conditions : La casse ne contient pas la valeur cible. Le modèle prédit que ce cas ne contient pas la valeur cible. |
| Faux négatif | Nombre de cas répondant à ces conditions : Valeur réelle non égale à la valeur cible. Le modèle prédit que ce cas ne contient pas la valeur cible. |
Ascenseur
Lift est une mesure associée à la probabilité. On dit qu'un modèle fournit un lift positif si le résultat est plus probable en utilisant ce modèle par rapport à un choix aléatoire. Toutefois, si le modèle effectue des prédictions moins probables que les chances aléatoires, le score d’élévation est négatif. Par conséquent, cette métrique indique la quantité d’amélioration qui peut être obtenue à l’aide du modèle, où un score plus élevé est meilleur.
La levée est calculée comme le rapport de la probabilité réelle de prédiction à la probabilité marginale dans les cas de test.
Score de log
Le score logarithmique, également appelé score de vraisemblance logarithmique pour la prédiction, représente le ratio entre deux probabilités, converti sur une échelle de logarithme. Étant donné que les probabilités sont représentées sous la forme d’une fraction décimale, le score logarithmique est toujours un nombre négatif. Un score plus proche de 0 est un meilleur score.
Alors que les scores bruts peuvent avoir des distributions irrégulières ou biaisées, un score logarithmique est similaire à un pourcentage.
Erreur quadratique moyenne
L’erreur quadratique moyenne (RMSE) est une méthode standard en statistique pour examiner comment différents ensembles de données se comparent et lisser les différences qui peuvent être introduites par l’échelle des entrées.
RMSE représente l’erreur moyenne de la valeur prédite par rapport à la valeur réelle. Il est calculé comme la racine carrée de l’erreur moyenne pour tous les cas de partition, divisé par le nombre de cas dans la partition, à l’exclusion des lignes qui ont des valeurs manquantes pour les attributs cibles.
Erreur absolue moyenne
L’erreur absolue moyenne correspond à l’erreur moyenne de la valeur prédite à la valeur réelle. Elle est calculée en obtenant la somme absolue des erreurs et en recherchant la moyenne de ces erreurs.
Cette valeur vous aide à comprendre la distance entre les scores et la moyenne.
Probabilité de cas
Cette mesure est utilisée uniquement pour les modèles de clustering et indique la probabilité qu’un nouveau cas appartient à un cluster particulier.
Dans les modèles de clustering, il existe deux types d’appartenance au cluster, selon la méthode que vous avez utilisée pour créer le modèle. Dans certains modèles, en fonction de l’algorithme K-moyennes, un nouveau cas devrait appartenir à un seul cluster. Toutefois, par défaut, l’algorithme Microsoft Clustering utilise la méthode d’optimisation des attentes, qui suppose qu’un nouveau cas peut appartenir à n’importe quel cluster. Par conséquent, dans ces modèles, un cas peut avoir plusieurs CaseLikelihood valeurs, mais celle signalée par défaut est la probabilité que le cas appartenant au cluster correspond le mieux à la nouvelle affaire.