Lire en anglais

Partager via


Informations de référence sur le codage prédictif (préversion)

Conseil

eDiscovery (préversion) est désormais disponible dans le nouveau portail Microsoft Purview. Pour en savoir plus sur l’utilisation de la nouvelle expérience eDiscovery, consultez En savoir plus sur eDiscovery (préversion).

Important

Le codage prédictif a été mis hors service depuis le 31 mars 2024 et n’est pas disponible dans les nouveaux cas eDiscovery. Pour les cas existants avec des modèles de codage prédictif entraînés, vous pouvez continuer à appliquer des filtres de score existants pour examiner les jeux. Toutefois, vous ne pouvez pas créer ou entraîner de nouveaux modèles.

Cet article décrit les concepts clés et les métriques de l’outil de codage prédictif dans Microsoft Purview eDiscovery (Premium). Les sections de l’article sont répertoriées par ordre alphabétique.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez maintenant sur le hub d’évaluation Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Niveau de confiance

Le niveau de confiance est un paramètre avancé lorsque vous créez un modèle de codage prédictif. Il définit que les métriques de performances du modèle (par exemple, richesse, précision et rappel) se situent dans une plage spécifiée (qui a déterminé la marge d’erreur définie pour le modèle) qui est représentative des valeurs vraies des scores de prédiction que le modèle attribue aux éléments du jeu de révision. Les valeurs du niveau de confiance et de la marge d’erreur permettent également de déterminer le nombre d’éléments inclus dans le jeu de contrôles. La valeur par défaut du niveau de confiance est 0,95 % ou 95 %.

Jeu de contrôles

Un jeu de contrôles est utilisé pendant le processus d’entraînement d’un modèle de codage prédictif. Le jeu de contrôles consiste à évaluer les scores de prédiction que le modèle attribue aux éléments avec l’étiquetage que vous effectuez pendant les cycles d’entraînement. La taille du jeu de contrôles est basée sur le nombre d’éléments dans le jeu de révision, ainsi que sur le niveau de confiance et la marge des valeurs d’erreur définies lors de la création du modèle. Les éléments du jeu de contrôles ne changent jamais et ne sont pas identifiables aux utilisateurs. Le nombre total d’éléments dans le jeu de contrôles est affiché sur la page de menu volant pour une ronde d’entraînement.

Matrice de confusion des ensembles de contrôles

Une fois que vous avez terminé un cycle d’entraînement, le modèle attribue un score de prédiction aux 10 éléments du jeu de contrôles que vous avez étiqueté pendant la ronde d’entraînement. Le modèle compare le score de prédiction de ces 10 éléments avec l’étiquette réelle que vous avez affectée à l’élément pendant la ronde d’entraînement. Sur la base de cette comparaison, le modèle identifie les classifications suivantes pour évaluer les performances de prédiction du modèle :



Étiquette Le modèle prédit que l’élément est pertinent Le modèle prédit que l’élément n’est pas pertinent
Élément d’étiquettes de réviseur comme pertinent Vrai positif Faux positif
Réviseur étiquette l’élément comme non pertinent Faux négatif Vrai négatif

Sur la base de ces comparaisons, le modèle dérive des valeurs pour les métriques F-score, precision et recall, ainsi que la marge d’erreur pour chacune d’elles. Le nombre de chacun des types de confusion de la matrice s’affiche sur la page volante d’un cycle d’entraînement.

F-score

Le score F est une moyenne pondérée des scores pour les métriques de précision et de rappel. La plage de scores pour cette métrique est comprise entre 0 et 1. Un score plus proche de 1 indique que le modèle détectera plus précisément les éléments pertinents. La métrique F-score s’affiche sur le tableau de bord du modèle et sur la page de menu volant pour chaque cycle d’entraînement.

Marge d’erreur

La marge d’erreur est un paramètre avancé lorsque vous créez un mode de codage prédictif. Il spécifie le degré d’erreur dans les métriques de performances (par exemple, richesse, précision et rappel) qui est dérivé de l’échantillonnage aléatoire des éléments de votre jeu de contrôles. Une marge d’erreur inférieure nécessite un ensemble de contrôles plus important pour garantir que les métriques de performances du modèle se situent dans une plage plus petite. Les valeurs de la marge d’erreur et du niveau de confiance permettent également de déterminer le nombre d’éléments inclus dans le jeu de contrôles. La valeur par défaut de la marge d’erreur est 0,05 % ou 5 %.

Stabilité du modèle

La stabilité du modèle indique la capacité du modèle à prédire avec précision si un document d’un ensemble de révisions est pertinent ou non. Lorsqu’un modèle est instable, il peut être nécessaire d’effectuer d’autres cycles d’entraînement pour inclure la stabilité du modèle. Lorsque le modèle est stable, il n’est pas nécessaire d’effectuer d’autres cycles d’entraînement. Le tableau de bord du modèle indique l’état actuel de la stabilité du modèle. Lorsqu’un modèle est stable, les métriques de performances ont atteint un niveau qui correspond aux paramètres du niveau de confiance et de la marge d’erreur.

Taux de basculement

Le taux de basculement est le pourcentage d’éléments dans l’ensemble de révision où le score de prédiction a changé entre les cycles d’entraînement. Un modèle est considéré comme stable lorsque le taux de basculement est inférieur à 5 %. La métrique de taux de basculement s’affiche sur le tableau de bord du modèle et sur la page volante pour chaque cycle d’entraînement. Le taux de basculement pour le premier cycle d’entraînement est égal à zéro, car il n’y a pas de score de prédiction précédent à renverser.

Précision

La métrique de précision mesure la proportion d’éléments pertinents parmi les éléments que le modèle a prédits pertinents. Cela signifie que les éléments du contrôle sont étiquetés comme pertinents par le réviseur et prédits comme pertinents par le modèle. La plage de scores pour cette métrique est comprise entre 0 et 1. Un score plus proche de 1 indique que le modèle identifiera moins d’éléments non pertinents. La métrique de précision est affichée sur le tableau de bord du modèle et sur la page volante pour chaque cycle d’entraînement.

Score de prédiction

Il s’agit du score qu’un modèle attribue à chaque document d’un jeu de révision. Le score est basé sur la pertinence du document par rapport à l’apprentissage du modèle à partir des cycles d’entraînement. En général, les éléments dont les scores de prédiction sont compris entre 0 et 0,5 sont considérés comme non pertinents et les éléments dont les scores de prédiction sont compris entre 0,5 et 1 sont considérés comme pertinents. Le score de prédiction est contenu dans un champ de métadonnées de document. Vous pouvez utiliser un filtre de prédiction pour afficher les éléments d’un jeu de révision qui font partie d’une plage de prédiction spécifiée.

Retrouver

La métrique de rappel mesure la proportion d’éléments que le modèle a prédits pertinents parmi les éléments pertinents. Cela signifie que les éléments pertinents dans le jeu de contrôles prédits par le modèle ont également été étiquetés comme pertinents par le réviseur. La plage de scores pour cette métrique est comprise entre 0 et 1. Un score plus proche de 1 indique que le modèle identifiera une plus grande partie des éléments pertinents. La métrique de rappel s’affiche sur le tableau de bord du modèle et sur la page volante pour chaque cycle d’entraînement.

Jeu à réviser

Un jeu de révision fournit l’étendue d’un modèle de codage prédictif. Lorsque vous créez un modèle pour le jeu de révision, les éléments du jeu de contrôles et des jeux d’apprentissage sont sélectionnés dans le jeu de révision. Lorsque le modèle attribue des scores de prédiction, il attribue ces scores aux éléments de la révision. Vous devez ajouter tous les éléments à l’ensemble de révision avant de créer un modèle de codage prédictif. Si vous ajoutez des éléments après avoir créé un modèle, aucun score de prédiction n’est attribué à ces éléments.

Richesse

La métrique de richesse mesure le pourcentage d’éléments d’ensemble de révision que le modèle prédit comme pertinents. La plage de scores pour cette métrique est comprise entre 0 et 1. La métrique de richesse s’affiche sur le tableau de bord du modèle.

Éléments échantillonnées

Le terme éléments échantillonnés est une référence à un échantillon aléatoire d’éléments dans un jeu de révision (qui contient du texte) qui sont sélectionnés et associés au jeu de contrôles lorsque vous créez un modèle de codage prédictif. Un échantillon aléatoire d’éléments est également sélectionné pour chaque cycle d’entraînement. Les éléments sélectionnés pour le jeu de contrôles d’un modèle ne sont jamais inclus dans un jeu d’entraînement pour ce même modèle. L’inverse est également vrai : les éléments de jeu d’entraînement ne sont jamais inclus dans le jeu de contrôles.

Jeu d’entraînement

Le modèle sélectionne de manière aléatoire les éléments du jeu de révision et les ajoute à un jeu d’entraînement. Pendant un cycle d’entraînement, les éléments du jeu d’entraînement (en plus des éléments du jeu de contrôles) vous sont présentés afin que vous puissiez étiqueter chacun d’eux comme « pertinent » ou « non pertinent ». Ce processus d’étiquetage ou de « formation » permet au modèle d’apprendre à prédire quels éléments de la révision sont pertinents ou non pertinents. Chaque fois que vous effectuez un cycle d’entraînement, le modèle sélectionne d’autres éléments dans la révision et les ajoute au jeu d’entraînement de ce cycle d’entraînement. Les éléments du jeu de contrôles ne sont jamais sélectionnés pour un jeu d’entraînement.