Desduplicación en los resultados de búsqueda de eDiscovery

En este artículo se describe cómo funciona la desduplicación de los resultados de búsqueda de exhibición de documentos electrónicos y se explican las limitaciones del algoritmo de desduplicación.

Al usar herramientas de eDiscovery para exportar los resultados de una búsqueda de exhibición de documentos electrónicos, tiene la opción de desduplicar los resultados que se exportan. ¿Qué significa esto? Al habilitar la desduplicación (de forma predeterminada, la desduplicación no está habilitada), solo se exporta una copia de un mensaje de correo electrónico aunque se hayan encontrado varias instancias del mismo mensaje en los buzones de correo en los que se ha buscado. La desduplicación le ayuda a ahorrar tiempo al reducir el número de elementos que tiene que revisar y analizar después de exportar los resultados de la búsqueda. Pero es importante comprender cómo funciona la desduplicación y tener en cuenta que hay limitaciones en el algoritmo que pueden hacer que un elemento único se marque como duplicado durante el proceso de exportación.

La información de este artículo es aplicable al exportar resultados de búsqueda mediante una de las siguientes herramientas de exhibición de documentos electrónicos:

Sugerencia

Si no es cliente de E5, use la prueba de soluciones de Microsoft Purview de 90 días para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de datos. Comience ahora en el centro de pruebas de portal de cumplimiento Microsoft Purview. Obtenga más información sobre los términos de suscripción y evaluación.

Cómo se identifican los mensajes duplicados

Las herramientas de eDiscovery usan una combinación de las siguientes propiedades de correo electrónico para determinar si un mensaje es duplicado:

  • InternetMessageId : esta propiedad especifica el identificador de mensaje de Internet de un mensaje de correo electrónico, que es un identificador único global que hace referencia a una versión específica de un mensaje específico. Este identificador lo genera el programa cliente de correo electrónico del remitente o el sistema de correo electrónico host que envía el mensaje. Si una persona envía un mensaje a más de un destinatario, el identificador de mensaje de Internet es el mismo para cada instancia del mensaje. Las revisiones posteriores del mensaje original reciben un identificador de mensaje diferente.
  • ConversationTopic : esta propiedad especifica el asunto del subproceso de conversación de un mensaje. El valor de la propiedad ConversationTopic es la cadena que describe el artículo general de la conversación. Una conversación consta de un mensaje inicial y todos los mensajes enviados en respuesta al mensaje inicial. Los mensajes de la misma conversación tienen el mismo valor para la propiedad ConversationTopic . El valor de esta propiedad suele ser la línea Subject del mensaje inicial que generó la conversación.
  • BodyTagInfo : se trata de una propiedad interna del almacén de Exchange. El valor de esta propiedad se calcula comprobando varios atributos en el cuerpo del mensaje. Esta propiedad se usa para identificar las diferencias en el cuerpo de los mensajes.

Durante el proceso de exportación de eDiscovery, estas tres propiedades se comparan para cada mensaje que coincida con los criterios de búsqueda. Si estas propiedades son idénticas para dos (o más) mensajes, se determina que esos mensajes son duplicados y el resultado es que solo se exportará una copia del mensaje si se habilita la desduplicación. El mensaje que se exporta se conoce como "elemento de origen". La información sobre los mensajes duplicados se incluye en los informes deResults.csv y Manifest.xml que se incluyen con los resultados de búsqueda exportados. En el archivo Results.csv , un mensaje duplicado se identifica con un valor en la columna Duplicar en elemento . El valor de esta columna coincide con el valor de la columna Identidad del elemento del mensaje que se exportó.

Los gráficos siguientes muestran cómo se muestran los mensajes duplicados en los informes deResults.csv y Manifest.xml que se exportan con los resultados de la búsqueda. Estos informes no incluyen las propiedades de correo electrónico descritas anteriormente, que se usan en el algoritmo de desduplicación. En su lugar, los informes incluyen la propiedad Item Identity asignada a los elementos por el almacén de Exchange.

Results.csv informe (visto en Excel)

Ver información sobre elementos duplicados en el informe de Results.csv.

Manifest.xml informe (visto en Excel)

Ver información sobre elementos duplicados en el informe de Manifest.xml.

Además, se incluyen otras propiedades de mensajes duplicados en los informes de exportación. Esto incluye el buzón en el que se encuentra el mensaje duplicado, si el mensaje se envió a un grupo de distribución y si el mensaje fue Cc'd o CCO a otro usuario.

Limitaciones del algoritmo de desduplicación

Hay algunas limitaciones conocidas del algoritmo de desduplicación que pueden hacer que los elementos únicos se marquen como duplicados. Es importante comprender estas limitaciones para que pueda decidir si desea usar o no la característica de desduplicación opcional.

Hay una situación en la que la característica de desduplicación podría identificar erróneamente un mensaje como duplicado y no exportarlo (pero aún así citarlo como duplicado en los informes de exportación). Se trata de mensajes que un usuario edita pero no envía. Por ejemplo, supongamos que un usuario selecciona un mensaje en Outlook, copia el contenido del mensaje y, a continuación, lo pega en un mensaje nuevo. A continuación, el usuario cambia una de las copias quitando o agregando datos adjuntos, o cambiando la línea del asunto o el propio cuerpo. Si estos dos mensajes coinciden con la consulta de una búsqueda de exhibición de documentos electrónicos, solo se exportará uno de los mensajes si la desduplicación está habilitada cuando se exportan los resultados de la búsqueda. Por lo tanto, aunque se cambió el mensaje original o el mensaje copiado, no se envió ninguno de los mensajes revisados y, por tanto, no se actualizaron los valores de las propiedades InternetMessageId, ConversationTopic y BodyTagInfo . Pero, como se explicó anteriormente, ambos mensajes aparecen en los informes de exportación.

Los mensajes únicos también se pueden marcar como duplicados cuando está habilitada la característica de protección de página Copiar en escritura, como en el caso de que un buzón esté en suspensión por juicio o In-Place suspensión. La característica Copiar en escritura copia el mensaje original (y lo guarda en la carpeta Versiones de la carpeta Elementos recuperables del usuario) antes de guardar la revisión en el elemento original. En este caso, la copia revisada y el mensaje original (en la carpeta Elementos recuperables) podrían considerarse mensajes duplicados y, por tanto, solo se exportaría uno de ellos.

Importante

Si las limitaciones del algoritmo de desduplicación pueden afectar a la calidad de los resultados de búsqueda, no debe habilitar la desduplicación al exportar elementos. Si es poco probable que las situaciones descritas en esta sección sean un factor en los resultados de la búsqueda y quiera reducir el número de elementos con mayor probabilidad de duplicados, considere la posibilidad de habilitar la desduplicación.

Más información

Para obtener más información sobre la exportación de resultados de búsqueda, consulte: