En savoir plus sur le codage prédictif dans eDiscovery (Premium) (préversion)

Article
10/31/2024

Conseil

eDiscovery (préversion) est désormais disponible dans le nouveau portail Microsoft Purview. Pour en savoir plus sur l’utilisation de la nouvelle expérience eDiscovery, consultez En savoir plus sur eDiscovery (préversion).

Importante

Le codage prédictif a été mis hors service depuis le 31 mars 2024 et n’est pas disponible dans les nouveaux cas eDiscovery. Pour les cas existants avec des modèles de codage prédictif entraînés, vous pouvez continuer à appliquer des filtres de score existants pour examiner les jeux. Toutefois, vous ne pouvez pas créer ou entraîner de nouveaux modèles.

Le module de codage prédictif dans eDiscovery (Premium) utilise les fonctionnalités d’apprentissage automatique intelligentes pour vous aider à réduire la quantité de contenu à réviser. Le codage prédictif vous aide à réduire et à éliminer de grands volumes de contenu de cas à un ensemble pertinent d’éléments que vous pouvez hiérarchiser pour révision. Pour ce faire, créez et entraînez vos propres modèles de codage prédictif qui vous aident à hiérarchiser la révision des éléments les plus pertinents d’un ensemble de révisions.

Le module de codage prédictif est conçu pour simplifier la complexité de la gestion d’un modèle dans un jeu de révision et fournir une approche itérative de l’apprentissage de votre modèle afin que vous puissiez commencer plus rapidement avec les fonctionnalités de Machine Learning dans eDiscovery (Premium). Pour commencer, vous pouvez créer un modèle, étiqueter seulement 50 éléments comme pertinents ou non pertinents. Le système utilise cette formation pour appliquer des scores de prédiction à chaque élément du jeu de révision. Cela vous permet de filtrer les éléments en fonction du score de prédiction, ce qui vous permet d’examiner d’abord les éléments les plus pertinents (ou non pertinents). Si vous souhaitez entraîner des modèles avec des taux de rappel et de précision plus élevés, vous pouvez continuer à étiqueter les éléments dans les cycles d’entraînement suivants jusqu’à ce que le modèle se stabilise.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment les fonctionnalités supplémentaires de Purview peuvent aider votre organisation à gérer les besoins en matière de sécurité et de conformité des données. Commencez maintenant sur le hub d’essais du portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Workflow de codage prédictif

Voici une vue d’ensemble et une description de chaque workflow de codage prédictif à chaque étape. Pour obtenir une description plus détaillée des concepts et de la terminologie du processus de codage prédictif, consultez Informations de référence sur le codage prédictif.

Workflow de codage prédictif.

Créez un modèle de codage prédictif dans l’ensemble de révision. La première étape consiste à créer un modèle de codage prédictif dans l’ensemble de révision. Vous devez disposer d’au moins 2 000 éléments dans le jeu de révision pour créer un modèle. Après avoir créé un modèle, le système détermine le nombre d’éléments à utiliser comme jeu de contrôles. Le jeu de contrôles est utilisé pendant le processus d’entraînement pour évaluer les scores de prédiction que le modèle attribue aux éléments avec l’étiquetage que vous effectuez pendant les cycles d’entraînement. La taille du jeu de contrôles est basée sur le nombre d’éléments dans le jeu de révision, ainsi que sur le niveau de confiance et la marge des valeurs d’erreur définies lors de la création du modèle. Les éléments du jeu de contrôles ne changent jamais et ne sont pas identifiables aux utilisateurs.

Pour plus d’informations, consultez Créer un modèle de codage prédictif.
Effectuez le premier cycle de formation en étiquetant les éléments comme pertinents ou non pertinents. L’étape suivante consiste à entraîner le modèle en démarrant la première série d’entraînement. Lorsque vous démarrez un cycle d’entraînement, le modèle sélectionne aléatoirement des éléments supplémentaires dans le jeu de révision, appelé jeu d’entraînement. Ces éléments (à la fois du jeu de contrôles et du jeu d’apprentissage) vous sont présentés afin que vous puissiez étiqueter chacun d’eux comme « pertinent » ou « non pertinent ». La pertinence est basée sur le contenu de l’élément et non sur les métadonnées du document. Une fois que vous avez terminé le processus d’étiquetage dans le cycle d’entraînement, le modèle « apprend » en fonction de la façon dont vous avez étiqueté les éléments dans le jeu d’entraînement. En fonction de cet entraînement, le modèle traite les éléments du jeu de révision et applique un score de prédiction à chacun d’eux.

Pour plus d’informations, consultez Entraîner un modèle de codage prédictif.
Appliquez le filtre de score de prédiction aux éléments du jeu de révision. Une fois l’étape d’entraînement précédente terminée, l’étape suivante consiste à appliquer le filtre de score de prédiction aux éléments de la révision pour afficher les éléments que le modèle a déterminés comme « les plus pertinents » (vous pouvez également utiliser un filtre de prédiction pour afficher les éléments « non pertinents »). Lorsque vous appliquez le filtre de prédiction, vous spécifiez une plage de scores de prédiction à filtrer. La plage des scores de prédiction se situe entre 0 et 1, 0 étant « non pertinent » et 1 étant pertinent. En général, les éléments dont les scores de prédiction sont compris entre 0 et 0,5 sont considérés comme « non pertinents » et les éléments dont les scores de prédiction sont compris entre 0,5 et 1 sont considérés comme pertinents.

Pour plus d’informations, consultez Appliquer un filtre de prédiction à un jeu de révision.
Effectuez d’autres cycles d’entraînement jusqu’à ce que le modèle se stabilise. Vous pouvez effectuer des séries d’entraînement supplémentaires si vous souhaitez créer un modèle avec une plus grande précision de prédiction et des taux de rappel accrus. Le taux de rappel mesure la proportion d’éléments prédits par le modèle étaient pertinents parmi les éléments réellement pertinents (ceux que vous avez marqués comme pertinents pendant l’entraînement). Le score de taux de rappel est de 0 à 1. Un score plus proche de 1 indique que le modèle identifiera les éléments plus pertinents. Dans un nouveau cycle d’entraînement, vous étiquetez des éléments supplémentaires dans un nouveau jeu d’entraînement. Une fois que vous avez terminé ce cycle d’entraînement, le modèle est mis à jour en fonction des nouveaux apprentissages de votre dernière série d’éléments d’étiquetage dans le jeu d’entraînement. Le modèle traite à nouveau les éléments de l’ensemble de révision et applique de nouveaux scores de prédiction. Vous pouvez continuer à effectuer des rondes d’entraînement jusqu’à ce que votre modèle se stabilise. Un modèle est considéré comme stabilisé lorsque le taux d’attrition après la dernière série d’entraînement est inférieur à 5 %. Le taux d’attrition est défini en pourcentage des éléments d’un jeu de révision où le score de prédiction a changé entre les cycles d’entraînement. Le tableau de bord de codage prédictif affiche des informations et des statistiques qui vous aident à évaluer la stabilité d’un modèle.
Appliquez le filtre de score de prédiction « final » pour passer en revue les éléments de jeu à classer par ordre de priorité. Une fois que vous avez terminé toutes les séries d’entraînement et stabilisé le modèle, la dernière étape consiste à appliquer le score de prédiction final à l’ensemble de révision pour hiérarchiser l’examen des éléments pertinents et non pertinents. Il s’agit de la même tâche que celle que vous avez effectuée à l’étape 3, mais à ce stade, le modèle est stable et vous n’envisagez pas d’exécuter d’autres cycles d’entraînement.

Partager via

En savoir plus sur le codage prédictif dans eDiscovery (Premium) (préversion)

Workflow de codage prédictif

Commentaires

Ressources supplémentaires