Различия между предполагаемыми и фактическими результатами поиска по обнаружению электронных данных
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Эта статья относится к поисковым запросам, которые можно выполнить с помощью одного из следующих средств обнаружения электронных данных Microsoft Purview:
- Поиск контента
- eDiscovery (стандарт)
При выполнении поиска eDiscovery используемое средство вернет оценку количества элементов (и их общего размера), которые соответствуют условиям поиска. Например, при выполнении поиска на портале соответствия требованиям Microsoft Purview предполагаемые результаты поиска отображаются на всплывающей странице выбранного поиска.
Это та же оценка общего размера и количества элементов, которые отображаются в средстве экспорта eDiscovery при экспорте результатов на локальный компьютер и в отчете "Сводка экспорта", скачанном с результатами поиска.
Предполагаемые результаты в средстве экспорта обнаружения электронных данных
Предполагаемые результаты в сводном отчете по экспорту
Однако, как вы заметили на предыдущем снимке экрана отчета Экспорт сводки, размер и количество фактических скачанных результатов поиска отличаются от размера и количества предполагаемых результатов поиска.
Ниже приведены некоторые причины таких различий.
Способ оценки результатов. Оценка результатов поиска — это оценка (а не фактическое количество) элементов, соответствующих условиям поискового запроса. Для компиляции оценки элементов Exchange список идентификаторов сообщений, соответствующих условиям поиска, запрашивается из базы данных Exchange средством обнаружения электронных данных, которое вы используете. Но при экспорте результатов поиска поиск выполняется повторно, а фактические сообщения извлекаются из базы данных Exchange. Таким образом, эти различия могут быть вызваны тем, как определяется предполагаемое количество элементов и фактическое количество элементов.
Изменения, происходящие между оценкой и экспортом результатов поиска. При экспорте результатов поиска поиск перезапускается для сбора последних элементов в индексе поиска, соответствующих условиям поиска. Возможно, были созданы, отправлены или получены дополнительные элементы, которые соответствуют условиям поиска в период между сбором предполагаемых результатов поиска и экспортом результатов поиска. Также возможно, что элементы, которые находились в индексе поиска на момент оценки результатов поиска, больше не существуют, так как они были удалены из расположения содержимого перед экспортом результатов поиска. Одним из способов устранения этой проблемы является указание диапазона дат для поиска eDiscovery. Другой способ — разместить удержание в расположениях содержимого, чтобы элементы сохранялись и не могли быть очищены.
Ниже приведены другие проблемы, которые могут привести к различиям между предполагаемыми и экспортируемыми результатами поиска:
- При увеличении элементов при использовании запроса даты. Обычно это вызвано следующими двумя причинами:
- Хранение управления версиями в SharePoint. Если документ удален с сайта, который находится на удержании, и включено управление версиями, все версии удаленного документа будут сохранены.
- Элементы календаря. Принимать и отклонять сообщения, а повторяющиеся собрания будут автоматически создавать новые элементы в фоновом режиме со старыми датами.
- При использовании удержаний могут возникать случаи, когда один и тот же элемент сохраняется в основном почтовом ящике пользователя и в архивном почтовом ящике. Это может произойти, когда пользователь вручную перемещает элемент в архив.
- Хотя и редко, даже если применяется удержание, обслуживание встроенных элементов календаря (которые не редактируются пользователем, но включаются во многие результаты поиска) время от времени могут удаляться. Это периодическое удаление элементов календаря приведет к уменьшению количества экспортируемых элементов.
- При увеличении элементов при использовании запроса даты. Обычно это вызвано следующими двумя причинами:
Неиндексированные элементы. Элементы, неиндексированные для поиска, могут привести к различиям между предполагаемыми и фактическими результатами поиска. При экспорте результатов поиска можно включать неиндексированные элементы. При добавлении неиндексированных элементов при экспорте результатов поиска может быть больше экспортированных элементов. Это приведет к разнице между предполагаемыми и экспортируемыми результатами поиска.
При использовании средства поиска контента вы можете включать неиндексированные элементы при экспорте результатов поиска. Количество неиндексированных элементов, возвращаемых поиском, отображается на всплывающей странице вместе с другими предполагаемыми результатами поиска. Все неиндексированные элементы также будут включены в общий размер предполагаемых результатов поиска. При экспорте результатов поиска можно включить или не включать неиндексированные элементы. Настройка этих параметров может привести к различиям между ожидаемыми и фактическими результатами поиска, которые скачиваются.
Экспорт результатов поиска контента, включающего все расположения контента. Если поиск, из который вы экспортируете результаты, был поиском всех расположений контента в вашей организации, то будут экспортированы только неиндексированные элементы из расположений контента, которые содержат элементы, соответствующие условиям поиска. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. Однако в предполагаемые результаты поиска будут включены неиндексированные элементы из всех расположений содержимого (даже те, которые не содержат элементов, соответствующих поисковому запросу).
Кроме того, если в результатах поиска, экспортируемых из определенных расположений контента, будут экспортированы неиндексированные элементы (которые не исключены из условий поиска) из всех расположений контента, указанных в поиске. В этом случае предполагаемое количество неиндексированных элементов и количество экспортируемых неиндексированных элементов должно быть одинаковым.
Причина, по которой не экспортируют неиндексированные элементы из всех расположений в организации, заключается в том, что это может увеличить вероятность ошибок экспорта и увеличить время, затраченное на экспорт и скачивание результатов поиска.
Неиндексированные элементы в SharePoint и OneDrive не включены в оценки поиска. Неиндексированные элементы из сайтов SharePoint и учетных записей OneDrive для бизнеса не включаются в предполагаемые результаты поиска. Это связано с тем, что индекс SharePoint не содержит данных для неиндексированных элементов. В оценки поиска включаются только неиндексированные элементы из почтовых ящиков. Однако при добавлении неиндексированных элементов при экспорте результатов поиска будут включены неиндексированные элементы в SharePoint и OneDrive, что увеличит количество фактически экспортированных элементов. Это приведет к различиям между предполагаемыми результатами (которые не включают неиндексированные элементы на сайтах SharePoint и OneDrive) и фактическими загруженными элементами. В этой ситуации по-прежнему применяется правило экспорта неиндексированных элементов только из расположений содержимого, содержащих элементы, соответствующие условиям поиска.
Версии документов в SharePoint и OneDrive. При поиске сайтов SharePoint и учетных записей OneDrive несколько версий документа не включаются в число предполагаемых результатов поиска. Но вы можете включить все версии документов при экспорте результатов поиска. При включении версий документов при экспорте результатов поиска фактическое количество (и общий размер) экспортированных элементов будет увеличено.
Папки SharePoint. Если папки в SharePoint соответствуют поисковому запросу, например поиску по дате, оценка поиска будет включать количество папок с диапазоном дат последнего изменения (но не элементы в этих папках). При экспорте результатов поиска элементы в папке экспортируются, но фактическая папка не экспортируется. В результате количество экспортированных элементов будет больше, чем количество предполагаемых результатов поиска. Если папка пуста, количество экспортированных фактических результатов поиска будет сокращено на один элемент, так как фактическая папка не экспортируется.
Примечание.
При выполнении поиска на основе запросов можно исключить папки SharePoint, добавив в запрос следующее условие:
NOT(ContentType:folder)
.Списки SharePoint. Если имя списка SharePoint соответствует поисковому запросу, оценка поиска будет включать количество всех элементов в списке. При экспорте результатов поиска список (и элементы списка) экспортируется в виде одного CSV-файла. Это позволит уменьшить фактическое количество экспортированных элементов. Если список содержит вложения, вложения будут экспортированы как отдельные документы, что также увеличит количество экспортируемых элементов.
Примечание.
При выполнении поиска на основе запросов можно исключить списки SharePoint, добавив в запрос следующее условие:
NOT(ContentType:list)
.Форматы необработанных файлов и экспортированные форматы файлов. Для элементов Exchange предполагаемый размер результатов поиска вычисляется с использованием необработанных размеров сообщений Exchange. Однако сообщения электронной почты экспортируются в PST-файл или в виде отдельных сообщений (в формате EML-файлов). Оба этих параметра экспорта используют формат файла, отличный от формата необработанных сообщений Exchange, в результате чего общий размер экспортированного файла отличается от предполагаемого размера файла.
Отмена дублирования элементов Exchange во время экспорта. Для элементов Exchange отмена дублирования сокращает количество экспортируемых элементов. Вы можете удалить дубликаты результатов поиска при их экспорте. Для сообщений Exchange это означает, что экспортируется только один экземпляр сообщения, даже если это сообщение может находиться в нескольких почтовых ящиках. Предполагаемые результаты поиска включают каждый экземпляр сообщения. Поэтому при выборе параметра отмены дублирования при экспорте результатов поиска фактическое количество экспортируемых элементов может быть значительно меньше предполагаемого количества элементов.
Отчет о результатах поиска (Results.csv файл) содержит запись для каждого повторяющегося сообщения и определяет исходный почтовый ящик, в котором находится повторяющееся сообщение. Это помогает определить все почтовые ящики, содержащие повторяющиеся сообщения.
Примечание.
Если при экспорте результатов поиска или простом скачивании отчетов не выбран параметр Включить элементы, которые зашифрованы или имеют нераспознанный формат , отчеты об ошибках индекса загружаются, но в них нет записей. Это не означает, что ошибок индексирования нет. Это просто означает, что неиндексированные элементы не были включены в экспорт.