Partage via


En savoir plus sur les paramètres de recherche et de analytique dans les cas d’eDiscovery (préversion)

Vous pouvez configurer les paramètres de chaque cas eDiscovery (préversion) afin de contrôler les fonctionnalités suivantes :

  • Quasi-doublons et thread de courrier
  • Thèmes
  • Requête de jeu à réviser générée automatiquement
  • Ignorer le texte
  • Reconnaissance optique des caractères

Conseil

Commencez à utiliser Microsoft Copilot for Security pour explorer de nouvelles façons de travailler plus intelligemment et plus rapidement à l’aide de la puissance de l’IA. En savoir plus sur Microsoft Copilot pour la sécurité dans Microsoft Purview.

Configurer les paramètres de analytique pour un cas

Pour configurer les paramètres de recherche et d’analyse d’un cas :

  1. Accédez au portail Microsoft Purview et connectez-vous à l’aide des informations d’identification d’un compte d’utilisateur affecté à des autorisations eDiscovery.
  2. Sélectionnez la carte de solution eDiscovery , puis sélectionnez Cas dans la navigation de gauche.
  3. Sélectionnez un cas, sélectionnez Paramètres de cas.
  4. Dans la page Paramètres de cas , sélectionnez Rechercher & analytique.
  5. La page de & analytique de recherche de cas s’affiche. Ces paramètres sont appliqués à tous les jeux de révision dans un cas.
  6. Après avoir sélectionné les options de recherche et de analytique applicables, sélectionnez Enregistrer.

Les sections suivantes de cet article décrivent les paramètres analytique que vous pouvez configurer pour un cas.

Quasi-doublons et thread de courrier

Dans cette section, vous pouvez définir des paramètres pour la détection des doublons, la détection des doublons et le thread de messagerie.

  • Doublons proches/threads d’e-mails : Lorsqu’elle est activée, la détection des doublons, la détection des doublons et le thread d’e-mail sont inclus dans le flux de travail lorsque vous exécutez analytique sur les données d’un jeu de révision.
  • Seuil de similarité des documents et des e-mails : Si le niveau de similarité de deux documents est supérieur au seuil, les deux documents sont placés dans le même jeu de quasi-doublons.
  • Nombre minimal/maximal de mots : Ces paramètres spécifient que les doublons proches et l’analyse des threads d’e-mail sont effectuées uniquement sur les documents qui ont au moins le nombre minimal de mots et au maximum le nombre maximal de mots.

Détection des quasi-duplicatas

Prenons l’exemple d’un ensemble de documents à examiner dans lequel un sous-ensemble est basé sur le même modèle et a principalement le même langage réutilisable, avec quelques différences ici et là. Si un réviseur avait pu identifier ce sous-ensemble, passer en revue l’un d’eux minutieusement et examiner les différences pour le reste, il n’aurait pas manqué d’informations uniques tout en prenant seulement une fraction de temps qui leur aurait pris pour lire tous les documents de couverture à couvrir. La détection des quasi-doublons regroupe les documents textuellement similaires afin de renforcer l’efficacité du processus d’examen.

Lorsqu’il procède à la détection des quasi-doublons, le système analyse tous les documents contenant du texte. Il les compare ensuite afin de déterminer si leur niveau de similarité est supérieur à un seuil défini. Si c’est le cas, les documents sont regroupés. Une fois tous les documents comparés et regroupés, un document de chaque groupe est désigné comme « pivot ». Lorsque vous procédez par la suite à l’examen des documents, vous pouvez commencer par le pivot avant de vous pencher sur les autres documents du groupe de quasi-doublons, en vous attachant à chaque fois à repérer la différence entre le pivot et l’autre document examiné.

Threading de messagerie

Prenons l’exemple d’une conversation par e-mail qui se tient depuis un certain temps. Dans la plupart des cas, le dernier message du thread d’e-mail inclut le contenu de tous les messages précédents. Par conséquent, l’examen du dernier message donne un contexte complet de la conversation qui s’est produite dans le thread. La fonctionnalité Thread de courrier identifie ce type de courrier. Les réviseurs peuvent dès lors se contenter d’examiner une partie du courrier collecté pour prendre connaissance du contexte.

Le thread d’e-mail analyse chaque thread d’e-mail et le déconstruit dans des messages individuels. Chaque thread d’e-mail est une chaîne de messages individuels. eDiscovery (préversion) analyse tous les messages électroniques dans l’ensemble de révision pour déterminer si un message électronique a un contenu unique ou si la chaîne (messages parents) est entièrement contenue dans le message final dans le fil de messagerie. Les messages électroniques sont divisés en quatre valeurs inclusives :

  • Inclusif : un e-mail inclusif est le dernier message électronique d’un fil de messagerie et contient tout le contenu précédent de ce fil de messagerie.
  • Inclusive moins : un message électronique est désigné comme inclusif moins s’il existe une ou plusieurs pièces jointes associées au message spécifique dans le fil de messagerie. Un réviseur peut utiliser la valeur Inclusive moins pour déterminer quel message électronique spécifique dans le thread a des pièces jointes associées.
  • Copie inclusive : un message électronique est considéré comme une copie inclusive s’il s’agit d’une copie exacte d’un message inclusif ou inclusif moins.
  • Aucun : la valeur None indique que le contenu du message est entièrement contenu dans au moins un autre message électronique marqué comme inclusif ou inclusif moins.

En quoi est-il différent des conversations dans Outlook ?

D’un coup d’œil, cela ressemble aux regroupements de conversations dans Outlook. Toutefois, il existe quelques distinctions importantes. Prenons l’exemple d’une conversation par e-mail qui a été dupliqué en deux conversations ; par exemple, une personne a répondu à un e-mail qui n’est pas le dernier de la conversation, de sorte que les deux derniers e-mails de la conversation ont tous deux un contenu unique.

Outlook regrouperait toujours les e-mails en une seule conversation ; la lecture uniquement du dernier e-mail peut manquer le contexte de l’avant-dernier e-mail, qui contient également du contenu unique. Étant donné que les threads de messagerie analysent chaque e-mail en composants individuels et les comparent, les threads d’e-mail marquent les deux derniers e-mails comme inclusifs, ce qui garantit que vous ne manquerez aucun contexte tant que vous lisez tous les e-mails marqués comme inclusifs

Thèmes

Dans cette section, vous pouvez définir les paramètres suivants pour les thèmes :

  • Thèmes: Lorsqu’il est activé, le clustering de thèmes est effectué dans le cadre du flux de travail lorsque vous exécutez analytique sur les données d’un jeu de révision.
  • Nombre maximal de thèmes : Spécifie le nombre maximal de thèmes qui peuvent être générés lorsque vous exécutez analytique sur les données d’un jeu de révision.
  • Inclure des nombres dans les thèmes : Lorsqu’il est activé, les nombres (qui identifient un thème) sont inclus lors de la génération de thèmes.
  • Ajustez dynamiquement le nombre maximal de thèmes : Dans certaines situations, il peut ne pas y avoir suffisamment de documents dans un jeu de révision pour produire le nombre souhaité de thèmes. Lorsque ce paramètre est activé, eDiscovery ajuste le nombre maximum de thèmes de façon dynamique plutôt que de tenter de le faire respecter.

Lorsque vous créez un document, vous commencez généralement par une ou plusieurs idées que vous souhaitez transmettre dans le document, puis vous composez le document à l’aide de mots qui s’alignent sur ces idées. Plus une idée est répandue, plus les mots liés à cette idée ont tendance à être fréquents. Cette méthode s’aligne également sur la façon dont les lecteurs consomment les documents. Les éléments importants à comprendre lors de la lecture d’un document sont les principales idées que le document tente de transmettre. Cela inclut également les idées qui apparaissent où et quelles sont les relations entre les idées.

Ce processus peut être étendu à la façon dont un réviseur eDiscovery souhaite consommer un ensemble de documents dans un cas. Ils veulent voir quelles idées sont présentes dans les ensembles de révision et quels documents parlent de ces idées. S’ils trouvent un document d’intérêt particulier, ils souhaitent pouvoir voir les documents qui traitent d’idées similaires.

La fonctionnalité Thèmes dans eDiscovery tente d’imiter la façon dont les humains raisonner sur les documents, en analysant les thèmes abordés dans un jeu de révision et en affectant un thème aux documents de l’ensemble de révision. Dans eDiscovery, Thèmes va encore plus loin et identifie le thème dominant dans chaque jeu de révision et document. Le thème dominant est celui qui apparaît le plus souvent dans un document.

Comment fonctionnent les thèmes ?

La fonctionnalité Thèmes analyse les documents avec du texte dans un ensemble de révision pour analyser les thèmes courants qui apparaissent dans tous les documents de l’ensemble de révision. eDiscovery attribue ces thèmes aux documents dans lesquels ils apparaissent. Il associe par ailleurs les thèmes aux mots utilisés dans les documents représentatifs du thème. Étant donné qu’un document peut contenir différents types d’objets, eDiscovery affecte souvent plusieurs thèmes pour examiner des ensembles et des documents. Il s’agit de la liste thèmes. Le thème qui apparaît le plus en évidence dans un ensemble de révision ou un document est désigné comme son thème dominant.

Configuration des thèmes

Les thèmes sont pris en charge pour les cas et s’appliquent à tous les ensembles de révision qu’ils contiennent. Vous pouvez configurer les paramètres des thèmes lorsque vous créez un cas ou vous pouvez mettre à jour les paramètres de thème pour un cas existant.

Pour configurer des thèmes dans un cas, procédez comme suit :

  1. Accédez au portail Microsoft Purview et connectez-vous à l’aide des informations d’identification d’un compte d’utilisateur affecté à des autorisations eDiscovery.
  2. Sélectionnez la carte de solution eDiscovery , puis sélectionnez Cas dans la navigation de gauche.
  3. Sélectionnez un cas, sélectionnez Paramètres de cas.
  4. Dans la page Paramètres de cas , sélectionnez Rechercher & analytique.
  5. Sélectionnez les options de thème suivantes, le cas échéant :
    • Nombre maximal de thèmes : Spécifie le nombre maximal de thèmes qui peuvent être générés lorsque vous exécutez analytique sur les données des jeux de révision inclus dans un cas. Pour plus d’informations sur les limites, consultez Limites dans eDiscovery.
    • Inclure des nombres dans les thèmes : Les nombres (qui identifient un thème) sont inclus lors de la génération de thèmes.
    • Ajustez dynamiquement le nombre maximal de thèmes : Dans certaines situations, il peut ne pas y avoir suffisamment de documents dans un ensemble de révision pour produire le nombre souhaité de thèmes pour le cas. Lorsque ce paramètre est activé, le nombre maximal de thèmes est ajusté dynamiquement au lieu de tenter d’appliquer le nombre maximal de thèmes.
  6. Si vous devez exclure les mots clés associés aux thèmes, entrez le texte ou l’expression régulière nécessaire dans le champ Ignorer le texte . Dans le champ Appliquer à , sélectionnez Thèmes pour appliquer le texte ou l’expression régulière à tous les thèmes.
  7. Sélectionnez Enregistrer.

Une fois qu’un nouveau cas est créé, analytique sont automatiquement exécutés sur les données lorsque les jeux de révision sont ajoutés au cas. Les thèmes des jeux de révision sont générés dans le cadre du traitement analytique.

Requête de jeu à réviser

Si vous cochez la case Créer automatiquement une recherche enregistrée pour la révision après analytique , eDiscovery génère automatiquement la requête de jeu de révision nommée For Review.

Cette requête filtre les éléments dupliqués de l’ensemble de révision, ce qui vous permet d’examiner rapidement les éléments uniques du jeu de révision. Elle n’est créée que lorsque vous effectuez une analyse pour un jeu à réviser dans le cas. Pour plus d’informations sur les requêtes de jeu de révision, consultez Interroger les données dans un jeu de révision.

Ignorer le texte

Il existe des situations où certains textes diminuent la qualité des analytique, comme les longues clauses d’exclusion de responsabilité qui sont ajoutées aux messages électroniques, quel que soit le contenu de l’e-mail. Si vous connaissez du texte qui doit être ignoré, vous pouvez l’exclure de analytique en spécifiant la chaîne de texte et la fonctionnalité analytique (quasi-doublons, threads de messagerie, thèmes et pertinence) pour lesquelles le texte doit être exclu. L’utilisation d’expressions régulières (RegEx) pour le texte ignoré est également prise en charge.

Reconnaissance optique des caractères

Lorsque ce paramètre est activé, le traitement OCR s’exécute sur les fichiers image. Le traitement OCR s’exécute dans les situations suivantes :

  • Lorsque des sources de données sont ajoutées à un cas : lorsque la reconnaissance optique de caractères est appliquée aux fichiers image, le texte de ces fichiers est disponible dans les résultats de la recherche. Le traitement OCR est effectué pendant le processus d’indexation avancée (si cette option est sélectionnée dans la requête de recherche). La reconnaissance optique de caractères est exécutée uniquement sur les éléments qui sont traités pendant l’indexation avancée. Par exemple, si un fichier PDF volumineux partiellement indexé ou comportant d’autres erreurs d’indexation est traité pendant l’indexation avancée, l’OCR est appliquée au fichier. Le traitement OCR se produit uniquement sur les fichiers qui sont réindexés pendant le processus d’indexation avancée. Cela signifie qu’il peut y avoir des situations où des sources de données sont ajoutées à un cas, mais certaines pièces jointes de courrier électronique ne seront pas traitées pour l’OCR, car ces fichiers ne sont pas traités pendant l’indexation avancée.
  • Lorsque du contenu est ajouté à partir d’autres sources de données : cela s’applique aux sources de données qui ne sont pas associées à un cas et lorsque les résultats de la recherche sont ajoutés à un jeu de révision.

Une fois les données ajoutées à un jeu de révision, le texte de l’image peut être examiné, recherché, étiqueté et analysé. Vous pouvez afficher le texte extrait dans la visionneuse de texte du fichier image sélectionné dans le jeu de révision. Pour plus d’informations, reportez-vous aux rubriques suivantes :