Onglet Validation croisée (vue Graphique d'analyse de précision de l'exploration de données)
La validation croisée vous permet de partitionner une structure d'exploration de données en sections croisées et d'effectuer l'apprentissage et le test des modèles de manière itérative sur chaque section croisée. Vous spécifiez un nombre de replis pour la division des données. Chaque repli est utilisé à son tour comme données de test, tandis que les autres données sont utilisées pour l'apprentissage d'un nouveau modèle. Analysis Services génère ensuite un ensemble de métriques de précision standard pour chaque modèle. En comparant les mesures des modèles générés pour chaque section croisée, vous pouvez vous faire une bonne idée de la fiabilité du modèle d'exploration de données pour le jeu de données complet.
Pour plus d’informations, consultez Validation croisée (Analysis Services - Exploration de données).
Remarque
La validation croisée ne peut pas être utilisée avec des modèles créés à l’aide de l’algorithme Microsoft Time Series ou de l’algorithme Microsoft Sequence Clustering. Si vous exécutez le rapport sur une structure d'exploration de données qui contient ces types de modèles, ils ne seront pas inclus dans le rapport.
Liste des tâches
Spécifiez le nombre de replis.
Spécifiez le nombre maximal de cas à utiliser pour la validation croisée.
Spécifiez la colonne prédictible.
Spécifiez, de manière facultative, un état prévisible.
Définissez, de manière facultative, les paramètres qui contrôlent la façon dont la précision de prédiction est évaluée.
Cliquez sur Obtenir les résultats pour afficher les résultats de la validation croisée.
Liste d’éléments d’interface utilisateur
Nombre de plis
Spécifiez le nombre de replis ou de partitions à créer. La valeur minimale est 2, ce qui signifie qu'une moitié du jeu de données est utilisée pour le test et une autre moitié pour l'apprentissage.
La valeur maximale est 10 pour les structures d'exploration de données de session.
La valeur maximale est 256 si la structure d’exploration de données est stockée dans une instance d’Analysis Services.
Remarque
Lorsque vous augmentez le nombre de replis, le temps nécessaire pour effectuer la validation croisée augmente de façon similaire à n. Vous pouvez rencontrer des problèmes de performances si le nombre de cas est élevé et la valeur Nombre de replis est également importante.
Nombre maximal de cas
Spécifiez le nombre maximal de cas à utiliser pour la validation croisée. Le nombre de cas dans un repli donné est égal à la valeur Nombre maximal de cas divisée par la valeur Nombre de replis .
Si vous utilisez 0, tous les cas des données sources sont utilisés pour la validation croisée.
Il n'y a pas de valeur par défaut.
Remarque
Le temps de traitement augmente également avec l'augmentation du nombre de cas.
Attribut cible
Sélectionnez une colonne dans la liste des colonnes prédictibles trouvées dans tous les modèles. Vous ne pouvez sélectionner qu'une colonne prédictible chaque fois que vous effectuez une validation croisée.
Pour tester des modèles de clustering seulement, sélectionnez Cluster.
État cible
Tapez une valeur cible ou sélectionnez-en une dans une liste déroulante.
La valeur par défaut est null
, ce qui indique que tous les états doivent être testés.
Ce paramètre est désactivé pour les modèles de clustering.
Seuil cible
Spécifiez une valeur comprise entre 0 et 1 qui indique la probabilité de prédiction au-dessus de laquelle un état prédit est considéré comme correct. La valeur peut être définie par incréments de 0,1.
La valeur par défaut est null
, ce qui indique que la prédiction la plus probable est comptabilisée comme correcte.
Remarque
Bien que vous puissiez définir la valeur 0,0, son utilisation augmentera le temps de traitement et ne produira pas de résultats significatifs.
Obtenir les résultats
Cliquez pour commencer la validation croisée du modèle à l'aide des paramètres spécifiés.
Le modèle est partitionné selon le nombre spécifié de replis et un modèle distinct est testé pour chaque repli. Par conséquent, la validation croisée peut mettre du temps à retourner les résultats.
Pour plus d’informations sur la façon d’interpréter les résultats du rapport de validation croisée, consultez Mesures dans le rapport de validation croisée.
Définition du seuil de précision
Vous pouvez contrôler la norme pour mesurer la précision de prédiction en définissant une valeur pour le seuil cible. Le seuil représente une sorte de barre de précision. À chaque prédiction est assignée une probabilité d'exactitude de la valeur prédite. Par conséquent, si vous définissez la valeur seuil cible plus proche de 1, vous devez exiger que la probabilité d’une prédiction particulière soit assez élevée pour être comptabilisée comme une bonne prédiction. À l’inverse, si vous définissez le seuil cible plus proche de 0, même les prédictions avec des valeurs de probabilité inférieures sont comptabilisées comme des prédictions « bonnes ».
Aucune valeur de seuil particulière n'est recommandée, car la probabilité de toute prédiction dépend du volume de données et du type de prédiction que vous faites. Vous devez examiner des prédictions à différents niveaux de probabilité pour déterminer une barre de précision appropriée pour vos données. Il est important de le faire, car la valeur que vous définissez pour le seuil cible affecte la précision mesurée du modèle.
Par exemple, supposons que trois prédictions soient effectuées pour un état cible donné et que les probabilités de chaque prédiction soient égales à 0,05, 0,15 et 0,8. Si vous définissez la valeur 0,5 pour le seuil, une seule prédiction est comptabilisée comme correcte. Si vous définissez le seuil cible sur 0,10, deux prédictions sont comptabilisées comme correctes.
Lorsque le seuil cible est défini null
sur , qui est la valeur par défaut, la prédiction la plus probable pour chaque cas est comptabilisée comme correcte. Dans l'exemple que nous venons de citer, 0,05, 0,15 et 0,8 sont les probabilités des prédictions de trois cas différents. Bien que les probabilités soient très différentes, chaque prédiction est comptabilisée comme correcte, car chaque cas génère une seule prédiction et il s'agit des meilleures prédictions pour ces cas.
Voir aussi
Test et validation (exploration de données)
Validation croisée (Analysis Services - Exploration de données)
Mesures dans le rapport de validation croisée
Procédures stockées d’exploration de données (Analysis Services - Exploration de données)