Más información sobre la configuración de búsqueda y análisis en casos de eDiscovery

2025-03-06

Puede configurar los valores de cada caso de exhibición de documentos electrónicos para controlar la siguiente funcionalidad:

Casi duplicados y subprocesos de correo electrónico
Temas
Consulta de conjunto de revisión generado automáticamente
Omitir texto
Reconocimiento óptico de caracteres

Sugerencia

Empiece a trabajar con Microsoft Security Copilot para explorar nuevas formas de trabajar de forma más inteligente y rápida con el poder de la inteligencia artificial. Obtenga más información sobre Microsoft Security Copilot en Microsoft Purview.

Configuración de los valores de análisis para un caso

Para configurar las opciones de búsqueda y análisis de un caso:

Vaya al portal de Microsoft Purview e inicie sesión con las credenciales de los permisos de exhibición de documentos electrónicos asignados a una cuenta de usuario.
Seleccione la tarjeta de solución eDiscovery y, a continuación, seleccione Casos en el panel de navegación izquierdo.
Seleccione un caso y, a continuación, seleccione Configuración del caso.
En la página Configuración del caso , seleccione Buscar & análisis.
Se muestra la página Búsqueda de casos & análisis . Esta configuración se aplica a todos los conjuntos de revisión en un caso.
Después de seleccionar las opciones de búsqueda y análisis aplicables, seleccione Guardar.

En las secciones siguientes de este artículo se describen los valores de análisis que puede configurar para un caso.

Casi duplicados y subprocesos de correo electrónico

En esta sección, puede establecer parámetros para la detección de duplicados, la detección de duplicados cercana y el subproceso de correo electrónico.

Subprocesos de correo electrónico o duplicados cercanos: Cuando está activado, la detección de duplicados, la detección casi duplicada y el subproceso de correo electrónico se incluyen como parte del flujo de trabajo al ejecutar análisis en los datos de un conjunto de revisión.
Umbral de similitud de documentos y correo electrónico: Si el nivel de similitud de dos documentos supera el umbral, ambos documentos se colocan en el mismo conjunto casi duplicado.
Número mínimo o máximo de palabras: Esta configuración especifica que los análisis de subprocesos de correo electrónico y duplicados cercanos solo se realizan en documentos que tienen al menos el número mínimo de palabras y, como máximo, el número máximo de palabras.

Detección de semiduplicados

Piense en un conjunto de documentos para revisar en el que un subconjunto se basa en la misma plantilla y tiene en su mayor parte el mismo lenguaje repetitivo, con algunas diferencias aquí y allá. Si un revisor pudiera identificar este subconjunto, revisar uno de ellos exhaustivamente y revisar las diferencias del resto, no se perdería ninguna información única, mientras que tardaría solo una fracción de tiempo en leer todos los documentos que cubrir. La detección de casi duplicados agrupa documentos textualmente similares para ayudarlo a que su proceso de revisión sea más eficiente.

Cuando se ejecuta la detección de casi duplicados, el sistema analiza cada documento con texto. Luego, compara cada documento entre sí para determinar si su similitud es mayor que el umbral establecido. Si es así, los documentos se agrupan juntos. Una vez que se comparan y agrupan todos los documentos, un documento de cada grupo se marca como "pivot"; al revisar los documentos, puede revisar primero una tabla dinámica y revisar los demás documentos en el mismo conjunto casi duplicado, centrándose en la diferencia entre el pivote y el documento que está en revisión.

Subprocesos de correo electrónico

Considere una conversación de correo electrónico que ha estado en marcha durante un tiempo. En la mayoría de los casos, el último mensaje del subproceso de correo electrónico incluye el contenido de todos los mensajes anteriores. Por lo tanto, al revisar el último mensaje se proporciona un contexto completo de la conversación que se produjo en el subproceso. El subproceso de correo electrónico identifica estos mensajes para que los revisores puedan revisar una fracción de los documentos recopilados sin perder ningún contexto.

Email subproceso en eDiscovery es el proceso de organizar una secuencia de correos electrónicos relacionados que forman parte de la misma conversación. Esto incluye el correo electrónico inicial y todas las respuestas y reenvíos posteriores vinculados al correo electrónico original. Al agrupar estos correos electrónicos en subprocesos, los revisores ven todo el contexto de una conversación, lo que facilita la comprensión del flujo de comunicación. Este enfoque ayuda a identificar la información pertinente de forma más eficaz y elimina la necesidad de revisar cada correo electrónico individualmente. Email mensajes incluidos en el proceso de análisis tienen rellenados los siguientes metadatos:

Es inclusivo: este campo identifica si un correo electrónico contiene todo el contenido único de un subproceso, incluidas todas las respuestas anteriores. Garantiza que solo se revise el correo electrónico más completo de un subproceso, lo que es esencial para comprender el contexto completo de la conversación sin tener que revisar cada respuesta individual.
Tiene datos adjuntos únicos: este campo marca los correos electrónicos que contienen datos adjuntos que no se encuentran en otros correos electrónicos dentro del mismo subproceso. Incluso si el contenido del correo electrónico está duplicado, los datos adjuntos únicos se marcan para asegurarse de que se revisan todos los documentos pertinentes. Esto es importante en el proceso de revisión legal para asegurarse de que no se pasa por alto ninguna evidencia única, incluso si el propio cuerpo del correo electrónico no es único.

¿En qué se diferencia de las conversaciones en Outlook?

De un vistazo, esto suena similar a las agrupaciones de conversaciones en Outlook. Sin embargo, hay algunas diferencias importantes. Considere la posibilidad de una conversación de correo electrónico que se bifurca en dos conversaciones; por ejemplo, alguien respondió a un correo electrónico que no es el más reciente de la conversación, por lo que los dos últimos correos electrónicos de la conversación tienen contenido único.

Outlook seguiría agrupando los correos electrónicos en una sola conversación; leer solo el último correo electrónico podría perderse el contexto del segundo al último correo electrónico, que también contiene contenido único. Dado que el subproceso de correo electrónico analiza cada correo electrónico en componentes individuales y los compara, el subproceso de correo electrónico marcaría los dos últimos correos electrónicos como inclusivos, lo que garantiza que no se perderá ningún contexto siempre y cuando lea todos los correos electrónicos marcados como inclusivos.

También vamos a considerar un subproceso de correo electrónico con varias respuestas, donde algunas respuestas incluyen respuestas insertadas que modifican el contenido entre comillas. Si una respuesta insertada modifica parte del correo electrónico anterior, la respuesta más reciente no abarca por completo el contenido del correo electrónico anterior. Tanto la respuesta más reciente como el correo electrónico anterior con contenido único se marcan como inclusivos. Este enfoque garantiza que se conserve y no se pasa por alto cualquier información única de la respuesta insertada.

Temas

En esta sección, puede establecer los parámetros siguientes para los temas:

Temas: Cuando está activado, la agrupación en clústeres de temas se realiza como parte del flujo de trabajo al ejecutar análisis en los datos de un conjunto de revisión.
Número máximo de temas: Especifica el número máximo de temas que se pueden generar al ejecutar análisis en los datos de un conjunto de revisión.
Incluir números en temas: Cuando está activado, los números (que identifican un tema) se incluyen al generar temas.
Ajuste el número máximo de temas dinámicamente: En determinadas situaciones, es posible que no haya suficientes documentos en un conjunto de revisión para generar el número deseado de temas. Cuando se habilita esta configuración, la exhibición de documentos electrónicos ajusta el número máximo de temas dinámicamente en lugar de intentar exigir el número máximo de temas.

Al crear un documento nuevo, por lo general comienza con una o más ideas que desea transmitir en el documento y, a continuación, redacta el documento con palabras que se alinean con estas ideas. Cuanto más frecuente sea una idea, más frecuentes suelen ser las palabras relacionadas con esa idea. Este método también se alinea con la forma en que los lectores consumen documentos. Las cosas importantes que hay que entender al leer un documento son las ideas principales que el documento intenta transmitir. Esto también incluye qué ideas aparecen dónde y cuáles son las relaciones entre las ideas.

Este proceso se puede ampliar a la forma en que un revisor de eDiscovery quiere consumir un conjunto de documentos en un caso. Quieren ver qué ideas están presentes en los conjuntos de revisión y qué documentos están hablando de esas ideas. Si encuentran un documento de interés determinado, quieren poder ver documentos que analicen ideas similares.

La funcionalidad Temas de eDiscovery intenta imitar cómo los seres humanos razonan sobre los documentos, analizando los temas que se tratan en un conjunto de revisión y asignando un tema a los documentos del conjunto de revisión. En eDiscovery, Themes va un paso más allá e identifica el tema dominante en cada conjunto de revisión y documento. El tema dominante es el que aparece más a menudo en un documento.

¿Cómo funcionan los temas?

La funcionalidad Temas analiza documentos con texto en un conjunto de revisión para analizar temas comunes que aparecen en todos los documentos del conjunto de revisión. La exhibición de documentos electrónicos asigna esos temas a los documentos en los que aparecen. También etiqueta cada tema con las palabras usadas en los documentos que son representativos del tema. Dado que un documento puede contener varios tipos de temas, eDiscovery suele asignar varios temas para revisar conjuntos y documentos. Esto se conoce como la lista Temas. El tema que aparece de forma más destacada en un conjunto de revisión o documento se designa como su tema dominante.

Configuración de temas

Los temas se admiten para los casos y se aplican a todos los conjuntos de revisión dentro de ellos. Puede configurar los valores de los temas al crear un caso nuevo o puede actualizar la configuración del tema para un caso existente.

Para configurar temas en un caso, complete los pasos siguientes:

Vaya al portal de Microsoft Purview e inicie sesión con las credenciales de los permisos de exhibición de documentos electrónicos asignados a una cuenta de usuario.
Seleccione la tarjeta de solución eDiscovery y, a continuación, seleccione Casos (versión preliminar) en el panel de navegación izquierdo.
Seleccione un caso, seleccione Configuración del caso.
En la página Configuración del caso , seleccione Buscar & análisis.
Seleccione las siguientes opciones de tema según corresponda:
- Número máximo de temas: Especifica el número máximo de temas que se pueden generar al ejecutar análisis en los datos de los conjuntos de revisión incluidos en un caso. Para obtener más información sobre los límites, vea Límites en eDiscovery.
- Incluir números en temas: Los números (que identifican un tema) se incluyen al generar temas.
- Ajuste el número máximo de temas dinámicamente: En determinadas situaciones, es posible que no haya suficientes documentos en un conjunto de revisión para generar el número deseado de temas para el caso. Cuando esta configuración está habilitada, el número máximo de temas se ajusta dinámicamente en lugar de intentar aplicar el número máximo de temas.
Si necesita excluir palabras clave asociadas a temas, escriba el texto o la expresión regular necesarios en el campo Omitir texto . En el campo Aplicar a , seleccione Temas para aplicar el texto o la expresión regular a todos los temas.
Haga clic en Guardar.

Una vez creado un nuevo caso, el análisis se ejecuta automáticamente en los datos cuando se agregan los conjuntos de revisión al caso. Los temas de los conjuntos de revisión se generan como parte del procesamiento de análisis.

Consulta de un conjunto de revisión

Si selecciona la casilla Crear automáticamente una búsqueda guardada después del análisis , eDiscovery genera automáticamente una consulta de conjunto de revisión denominada Para revisión.

Esta consulta filtra los elementos duplicados del conjunto de revisión, lo que le permite revisar rápidamente los elementos únicos del conjunto de revisión. Esta consulta se crea solo al ejecutar análisis para un conjunto de revisión en el caso. Para obtener más información sobre las consultas de conjuntos de revisión, consulte Consulta de los datos de un conjunto de revisión.

Omitir texto

Hay situaciones en las que cierto texto disminuye la calidad del análisis, como largas declinaciones de responsabilidades que se agregan a los mensajes de correo electrónico independientemente del contenido del correo electrónico. Si conoce el texto que se debe omitir, puede excluirlo del análisis especificando la cadena de texto y la funcionalidad de análisis (casi duplicados, subprocesos de correo electrónico, temas y relevancia) para los que se debe excluir el texto. También se admite el uso de expresiones regulares (RegEx) para texto omitido.

Reconocimiento óptico de caracteres (OCR)

Cuando esta configuración está activada, el procesamiento de OCR se ejecuta en archivos de imagen. Cuando se aplica OCR a los archivos de imagen, el texto de estos archivos está disponible en los resultados de la búsqueda. OCR solo se ejecuta en elementos procesados durante la indexación avanzada (si esta opción está seleccionada en la consulta de búsqueda).

Por ejemplo, si durante la indexación avanzada se procesa un archivo PDF de gran tamaño parcialmente indexado o que tenía otros errores de indexación, se aplica OCR. El procesamiento de OCR solo se produce en los archivos que se vuelven a indexar durante el proceso de indexación avanzada. Esto significa que puede haber situaciones en las que el contenido se agrega a un conjunto de revisión, pero algunos datos adjuntos de correo electrónico no se procesan para OCR porque estos archivos no se procesan durante la indexación avanzada.

Una vez agregados los datos a un conjunto de revisión, se puede revisar, buscar, etiquetar y analizar el texto de la imagen. Puede ver el texto extraído en el Visor de texto del archivo de imagen seleccionado en el conjunto de revisión. Para más información, vea: