Más información sobre la configuración de búsqueda y análisis en casos de eDiscovery (versión preliminar)

Artículo
07/27/2024

Puede configurar los valores de cada caso de exhibición de documentos electrónicos (versión preliminar) para controlar la siguiente funcionalidad:

Casi duplicados y subprocesos de correo electrónico
Temas
Consulta de conjunto de revisión generado automáticamente
Omitir texto
Reconocimiento óptico de caracteres

Sugerencia

Empiece a trabajar con Microsoft Copilot for Security para explorar nuevas formas de trabajar de forma más inteligente y rápida con el poder de la inteligencia artificial. Obtenga más información sobre Microsoft Copilot for Security en Microsoft Purview.

Configuración de los valores de análisis para un caso

Para configurar las opciones de búsqueda y análisis de un caso:

Vaya al portal de Microsoft Purview e inicie sesión con las credenciales de los permisos de exhibición de documentos electrónicos asignados a una cuenta de usuario.
Seleccione la tarjeta de solución eDiscovery y, a continuación, seleccione Casos en el panel de navegación izquierdo.
Seleccione un caso, seleccione Configuración del caso.
En la página Configuración del caso , seleccione Buscar & análisis.
Se muestra la página Búsqueda de casos & análisis . Esta configuración se aplica a todos los conjuntos de revisión en un caso.
Después de seleccionar las opciones de búsqueda y análisis aplicables, seleccione Guardar.

En las secciones siguientes de este artículo se describen los valores de análisis que puede configurar para un caso.

Casi duplicados y subprocesos de correo electrónico

En esta sección, puede establecer parámetros para la detección de duplicados, la detección de duplicados cercana y el subproceso de correo electrónico.

Subprocesos de correo electrónico o duplicados cercanos: Cuando está activado, la detección de duplicados, la detección casi duplicada y el subproceso de correo electrónico se incluyen como parte del flujo de trabajo al ejecutar análisis en los datos de un conjunto de revisión.
Umbral de similitud de documentos y correo electrónico: Si el nivel de similitud de dos documentos está por encima del umbral, ambos documentos se colocan en el mismo conjunto casi duplicado.
Número mínimo o máximo de palabras: Esta configuración especifica que los análisis de subprocesos de correo electrónico y duplicados cercanos solo se realizan en documentos que tienen al menos el número mínimo de palabras y, como máximo, el número máximo de palabras.

Detección de semiduplicados

Piense en un conjunto de documentos para revisar en el que un subconjunto se basa en la misma plantilla y tiene en su mayor parte el mismo lenguaje repetitivo, con algunas diferencias aquí y allá. Si un revisor pudiera identificar este subconjunto, revisar uno de ellos exhaustivamente y revisar las diferencias del resto, no habrían perdido ninguna información única mientras tardaban solo una fracción de tiempo que les habría llevado a leer todos los documentos cubiertos para cubrir. La detección de casi duplicados agrupa documentos textualmente similares para ayudarlo a que su proceso de revisión sea más eficiente.

Cuando se ejecuta la detección de casi duplicados, el sistema analiza cada documento con texto. Luego, compara cada documento entre sí para determinar si su similitud es mayor que el umbral establecido. Si es así, los documentos se agrupan juntos. Una vez que se han comparado y agrupado todos los documentos, se marca un documento de cada grupo como "documento principal"; Al revisar sus documentos, puede revisar un documento principal en primer lugar y revisar los otros documentos en el mismo conjunto casi duplicado, enfocándose en la diferencia entre el documento principal y el documento que está en revisión.

Subprocesos de correo electrónico

Considere una conversación de correo electrónico que ha estado en marcha durante un tiempo. En la mayoría de los casos, el último mensaje del subproceso de correo electrónico incluye el contenido de todos los mensajes anteriores. Por lo tanto, al revisar el último mensaje se proporciona un contexto completo de la conversación que se produjo en el subproceso. El subproceso de correo electrónico identifica estos mensajes para que los revisores puedan revisar una fracción de los documentos recopilados sin perder ningún contexto.

El subproceso de correo electrónico analiza cada subproceso de correo electrónico y lo deconstruye en mensajes individuales. Cada hilo de correo electrónico es una cadena de mensajes individuales. eDiscovery (versión preliminar) analiza todos los mensajes de correo electrónico del conjunto de revisión para determinar si un mensaje de correo electrónico tiene contenido único o si la cadena (mensajes primarios) está totalmente contenida en el mensaje final en el subproceso de correo electrónico. Los mensajes de correo electrónico se dividen en cuatro valores inclusivos:

Inclusivo: un correo electrónico inclusivo es el mensaje de correo electrónico final en un subproceso de correo electrónico y contiene todo el contenido anterior de ese subproceso de correo electrónico.
Menos inclusivo: un mensaje de correo electrónico se designa como Inclusive menos si hay uno o más datos adjuntos asociados al mensaje específico dentro del subproceso de correo electrónico. Un revisor puede usar el valor de hilo completo sin un adjunto para determinar qué mensaje de correo electrónico específico dentro del hilo tiene datos adjuntos asociados.
Copia inclusiva: un mensaje de correo electrónico se considera una copia inclusiva si es una copia exacta de un mensaje inclusivo o inclusivo menos.
Ninguno: el valor None indica que el contenido del mensaje está totalmente contenido en al menos otro mensaje de correo electrónico marcado como Inclusive o Inclusive menos.

¿En qué se diferencia de las conversaciones en Outlook?

De un vistazo, esto suena similar a las agrupaciones de conversaciones en Outlook. Sin embargo, hay algunas diferencias importantes. Considere la posibilidad de una conversación de correo electrónico que se bifurca en dos conversaciones; por ejemplo, alguien respondió a un correo electrónico que no es el más reciente de la conversación, por lo que los dos últimos correos electrónicos de la conversación tienen contenido único.

Outlook seguiría agrupando los correos electrónicos en una sola conversación; leer solo el último correo electrónico puede perder el contexto del segundo al último correo electrónico, que también contiene contenido único. Dado que el subproceso de correo electrónico analiza cada correo electrónico en componentes individuales y los compara, el subproceso de correo electrónico marcaría los dos últimos correos electrónicos como inclusivos, lo que garantiza que no se perderá ningún contexto siempre y cuando lea todos los correos electrónicos marcados como inclusivos.

Temas

En esta sección, puede establecer los parámetros siguientes para los temas:

Temas: Cuando está activado, la agrupación en clústeres de temas se realiza como parte del flujo de trabajo al ejecutar análisis en los datos de un conjunto de revisión.
Número máximo de temas: Especifica el número máximo de temas que se pueden generar al ejecutar análisis en los datos de un conjunto de revisión.
Incluir números en temas: Cuando está activado, los números (que identifican un tema) se incluyen al generar temas.
Ajuste el número máximo de temas dinámicamente: En determinadas situaciones, es posible que no haya suficientes documentos en un conjunto de revisión para generar el número deseado de temas. Cuando se habilita esta configuración, la exhibición de documentos electrónicos ajusta el número máximo de temas dinámicamente en lugar de intentar exigir el número máximo de temas.

Al crear un documento nuevo, por lo general comienza con una o más ideas que desea transmitir en el documento y, a continuación, redacta el documento con palabras que se alinean con estas ideas. Cuanto más frecuente sea una idea, más frecuentes suelen ser las palabras relacionadas con esa idea. Este método también se alinea con la forma en que los lectores consumen documentos. Las cosas importantes que hay que entender al leer un documento son las ideas principales que el documento intenta transmitir. Esto también incluye qué ideas aparecen dónde y cuáles son las relaciones entre las ideas.

Este proceso se puede ampliar a la forma en que un revisor de eDiscovery quiere consumir un conjunto de documentos en un caso. Quieren ver qué ideas están presentes en los conjuntos de revisión y qué documentos están hablando de esas ideas. Si encuentran un documento de interés determinado, quieren poder ver documentos que analicen ideas similares.

La funcionalidad Temas de eDiscovery intenta imitar cómo los seres humanos razonan sobre los documentos, analizando los temas que se tratan en un conjunto de revisión y asignando un tema a los documentos del conjunto de revisión. En eDiscovery, Themes va un paso más allá e identifica el tema dominante en cada conjunto de revisión y documento. El tema dominante es el que aparece más a menudo en un documento.

¿Cómo funcionan los temas?

La funcionalidad Temas analiza documentos con texto en un conjunto de revisión para analizar temas comunes que aparecen en todos los documentos del conjunto de revisión. La exhibición de documentos electrónicos asigna esos temas a los documentos en los que aparecen. También etiqueta cada tema con las palabras usadas en los documentos que son representativos del tema. Dado que un documento puede contener varios tipos de temas, eDiscovery suele asignar varios temas para revisar conjuntos y documentos. Esto se conoce como la lista Temas. El tema que aparece de forma más destacada en un conjunto de revisión o documento se designa como su tema dominante.

Configuración de temas

Los temas se admiten para los casos y se aplican a todos los conjuntos de revisión dentro de ellos. Puede configurar los valores de los temas al crear un caso nuevo o puede actualizar la configuración del tema para un caso existente.

Para configurar temas en un caso, complete los pasos siguientes:

Vaya al portal de Microsoft Purview e inicie sesión con las credenciales de los permisos de exhibición de documentos electrónicos asignados a una cuenta de usuario.
Seleccione la tarjeta de solución eDiscovery y, a continuación, seleccione Casos en el panel de navegación izquierdo.
Seleccione un caso, seleccione Configuración del caso.
En la página Configuración del caso , seleccione Buscar & análisis.
Seleccione las siguientes opciones de tema según corresponda:
- Número máximo de temas: Especifica el número máximo de temas que se pueden generar al ejecutar análisis en los datos de los conjuntos de revisión incluidos en un caso. Para obtener más información sobre los límites, vea Límites en eDiscovery.
- Incluir números en temas: Los números (que identifican un tema) se incluyen al generar temas.
- Ajuste el número máximo de temas dinámicamente: En determinadas situaciones, es posible que no haya suficientes documentos en un conjunto de revisión para generar el número deseado de temas para el caso. Cuando esta configuración está habilitada, el número máximo de temas se ajusta dinámicamente en lugar de intentar aplicar el número máximo de temas.
Si necesita excluir palabras clave asociadas a temas, escriba el texto o la expresión regular necesarios en el campo Omitir texto . En el campo Aplicar a , seleccione Temas para aplicar el texto o la expresión regular a todos los temas.
Haga clic en Guardar.

Una vez creado un nuevo caso, el análisis se ejecuta automáticamente en los datos cuando se agregan los conjuntos de revisión al caso. Los temas de los conjuntos de revisión se generan como parte del procesamiento de análisis.

Consulta de un conjunto de revisión

Si selecciona la casilla Crear automáticamente una búsqueda guardada después del análisis , eDiscovery genera automáticamente una consulta de conjunto de revisión denominada Para revisión.

Esta consulta filtra los elementos duplicados del conjunto de revisión, lo que le permite revisar rápidamente los elementos únicos del conjunto de revisión. Esta consulta se crea solo al ejecutar análisis para un conjunto de revisión en el caso. Para obtener más información sobre las consultas de conjuntos de revisión, consulte Consulta de los datos de un conjunto de revisión.

Omitir texto

Hay situaciones en las que cierto texto disminuye la calidad del análisis, como largas declinaciones de responsabilidades que se agregan a los mensajes de correo electrónico independientemente del contenido del correo electrónico. Si conoce el texto que se debe omitir, puede excluirlo del análisis especificando la cadena de texto y la funcionalidad de análisis (casi duplicados, subprocesos de correo electrónico, temas y relevancia) para los que se debe excluir el texto. También se admite el uso de expresiones regulares (RegEx) para texto omitido.

Reconocimiento óptico de caracteres (OCR)

Cuando esta configuración está activada, el procesamiento de OCR se ejecuta en archivos de imagen. El procesamiento de OCR se ejecuta en las siguientes situaciones:

Cuando se agregan orígenes de datos a un caso: cuando se aplica OCR a los archivos de imagen, el texto de esos archivos está disponible en los resultados de la búsqueda. El procesamiento de OCR se realiza durante el proceso de indexación avanzada (si esta opción está seleccionada en la consulta de búsqueda). OCR solo se ejecuta en elementos que se procesan durante la indexación avanzada. Por ejemplo, si durante la indexación avanzada se procesa un archivo PDF de gran tamaño parcialmente indexado o que tenía otros errores de indexación, el archivo tiene aplicado OCR. El procesamiento de OCR solo se produce en los archivos que se vuelven a indexar durante el proceso de indexación avanzada. Esto significa que puede haber situaciones en las que los orígenes de datos se agregan a un caso, pero algunos datos adjuntos de correo electrónico no se procesarán para OCR porque esos archivos no se procesan durante la indexación avanzada.
Cuando se agrega contenido desde otros orígenes de datos: esto se aplica a los orígenes de datos no están asociados a un caso y cuando los resultados de la búsqueda se agregan a un conjunto de revisión.

Una vez agregados los datos a un conjunto de revisión, se puede revisar, buscar, etiquetar y analizar el texto de la imagen. Puede ver el texto extraído en el Visor de texto del archivo de imagen seleccionado en el conjunto de revisión. Para más información, vea:

Compartir vía