Дедупликация в результатах поиска eDiscovery

В этой статье описывается, как работает дедупликация результатов поиска eDiscovery, и объясняются ограничения алгоритма дедупликации.

При использовании средств обнаружения электронных данных для экспорта результатов поиска eDiscovery можно дедупликировать экспортируемые результаты. Что это означает? При включении дедупликации (по умолчанию дедупликация не включена), экспортируется только одна копия сообщения электронной почты, даже если в найденных почтовых ящиках могло быть найдено несколько экземпляров одного сообщения. Дедупликация помогает сэкономить время, уменьшая количество элементов, которые необходимо просмотреть и проанализировать после экспорта результатов поиска. Но важно понимать, как работает дедупликация, и учитывать, что существуют ограничения алгоритма, которые могут привести к пометке уникального элемента как дубликата во время процесса экспорта.

Сведения, приведенные в этой статье, применимы при экспорте результатов поиска с помощью одного из следующих средств обнаружения электронных данных:

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Как идентифицируются повторяющиеся сообщения

Средства обнаружения электронных данных используют сочетание следующих свойств электронной почты, чтобы определить, является ли сообщение дубликатом:

  • InternetMessageId — это свойство указывает идентификатор сообщения в Интернете сообщения электронной почты, который является глобально уникальным идентификатором, ссылающимся на определенную версию определенного сообщения. Этот идентификатор создается клиентской программой электронной почты отправителя или хост-системой электронной почты, отправляющей сообщение. Если пользователь отправляет сообщение нескольким получателям, идентификатор сообщения Интернета одинаков для каждого экземпляра сообщения. Последующие редакции исходного сообщения получают другой идентификатор сообщения.
  • ConversationTopic — это свойство задает тему потока беседы сообщения. Значение свойства ConversationTopic — это строка, которая описывает общую статью беседы. Беседа состоит из начального сообщения и всех сообщений, отправленных в ответ на исходное сообщение. Сообщения в одной беседе имеют то же значение для свойства ConversationTopic . Значением этого свойства обычно является строка Subject из исходного сообщения, которое породило беседу.
  • BodyTagInfo — это внутреннее свойство хранилища Exchange. Значение этого свойства вычисляется путем проверки различных атрибутов в тексте сообщения. Это свойство используется для выявления различий в тексте сообщений.

В процессе экспорта обнаружения электронных данных эти три свойства сравниваются для каждого сообщения, соответствующего условиям поиска. Если эти свойства идентичны для двух (или более) сообщений, эти сообщения определяются как повторяющиеся, и в результате будет экспортирована только одна копия сообщения, если включена дедупликация. Экспортируемая сообщение называется исходным элементом. Сведения о повторяющихся сообщениях включаются в Results.csv и Manifest.xml отчеты, включенные в экспортированные результаты поиска. В файлеResults.csv повторяющееся сообщение идентифицируется по значению в столбце Дублировать на элемент . Значение в этом столбце соответствует значению в столбце Идентификатор элемента для экспортированного сообщения.

На рисунке ниже показано, как в Results.csv отображаются повторяющиеся сообщения и Manifest.xml отчетах, экспортируемых с результатами поиска. Эти отчеты не включают описанные ранее свойства электронной почты, которые используются в алгоритме дедупликации. Вместо этого отчеты содержат свойство Item Identity , назначенное элементам хранилищем Exchange.

отчет Results.csv (просмотр в Excel)

Просмотр сведений о повторяющихся элементах в отчете Results.csv.

отчет Manifest.xml (просмотр в Excel)

Просмотр сведений о повторяющихся элементах в отчете Manifest.xml.

Кроме того, в отчеты об экспорте включаются другие свойства повторяющихся сообщений. Сюда входит почтовый ящик, в который находится дубликат сообщения, сообщение было отправлено группе рассылки и было ли сообщение cc'd или BCC'd другому пользователю.

Ограничения алгоритма дедупликации

Существуют некоторые известные ограничения алгоритма дедупликации, которые могут привести к тому, что уникальные элементы помечаются как дубликаты. Важно понимать эти ограничения, чтобы решить, следует ли использовать необязательную функцию дедупликации.

Существует одна ситуация, когда функция дедупликации может ошибочно идентифицировать сообщение как дубликат и не экспортировать его (но по-прежнему указывать его как дубликат в отчетах об экспорте). Это сообщения, которые пользователь изменяет, но не отправляет. Например, предположим, что пользователь выбирает сообщение в Outlook, копирует его содержимое, а затем вставляет его в новое сообщение. Затем пользователь изменяет одну из копий, удалив или добавив вложение, изменив строку темы или текст. Если эти два сообщения соответствуют запросу поиска eDiscovery, при экспорте результатов поиска будет экспортировано только одно из сообщений. Таким образом, несмотря на то, что исходное или скопированное сообщение было изменено, ни один из измененных сообщений не был отправлен, поэтому значения свойств InternetMessageId, ConversationTopic и BodyTagInfo не были обновлены. Но, как уже говорилось ранее, оба сообщения перечислены в отчетах по экспорту.

Уникальные сообщения также можно пометить как дубликаты, если включена функция защиты страницы копирования при записи, как в случае с почтовым ящиком, удерживаемым для судебного разбирательства или In-Place удержания. Функция копирования при записи копирует исходное сообщение (и сохраняет его в папке Версии папки "Элементы с возможностью восстановления") перед сохранением редакции исходного элемента. В этом случае измененная копия и исходное сообщение (в папке "Элементы с возможностью восстановления") могут рассматриваться как дубликаты сообщений, поэтому экспортируется только одно из них.

Важно!

Если ограничения алгоритма дедупликации могут повлиять на качество результатов поиска, то не следует включать дедупликацию при экспорте элементов. Если ситуации, описанные в этом разделе, вряд ли являются фактором в результатах поиска и вы хотите уменьшить количество элементов, которые, скорее всего, будут дублироваться, следует рассмотреть возможность включения дедупликации.

Дополнительная информация

Дополнительные сведения об экспорте результатов поиска см. в разделе: