Исследование частично индексированных элементов в обнаружении электронных данных
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Поиск eDiscovery, выполняемый на портале соответствия требованиям Microsoft Purview, автоматически включает частично индексированные элементы в предполагаемые результаты поиска при выполнении поиска. Частично индексированные элементы — это элементы почтового ящика Exchange и документы на сайтах SharePoint и OneDrive для бизнеса, которые по какой-то причине не были полностью проиндексированы для поиска. Большинство сообщений электронной почты и документов сайта успешно индексируются, так как они находятся в пределах ограничений индексирования для сообщений электронной почты. Однако некоторые элементы могут превышать эти ограничения индексирования и будут частично индексированы. Ниже приведены другие причины, по которым элементы не могут быть проиндексированы для поиска и возвращаются как частично индексированные элементы при выполнении поиска eDiscovery:
- Сообщения электронной почты имеют вложенный файл, который не удается открыть; это наиболее распространенная причина частично индексированных элементов электронной почты.
- В сообщение электронной почты вложено слишком много файлов.
- Размер файла, вложенного в сообщение электронной почты, превышает допустимый.
- Тип файла поддерживает индексирование, но произошла ошибка индексирования определенного файла.
Хотя он и отличается, большинство клиентов организаций имеют менее 1 % содержимого по объему и менее 12 % содержимого по размеру, которое частично индексируется. Причина разницы между объемом и размером заключается в том, что большие файлы имеют более высокую вероятность содержать содержимое, которое не может быть полностью проиндексировано.
Дополнительные сведения о частично индексированных элементах в поиске контента см. в разделе Исследование частично индексированных элементов в поиске контента.
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Почему количество частично индексированных элементов изменяется для поиска?
После выполнения поиска eDiscovery общее количество и размер частично индексированных элементов в расположениях, в которых был выполнен поиск, отображаются в статистике результатов поиска, которая отображается в подробной статистике поиска. Обратите внимание, что они называются неиндексными элементами в статистике поиска. Вот несколько вещей, которые повлияют на количество частично индексированных элементов, возвращаемых в результатах поиска.
- Если элемент частично индексируется и соответствует поисковому запросу, он включается в число (и размер) элементов результатов поиска и частично индексированных элементов. Однако при экспорте результатов этого же поиска элемент включается только с набором результатов поиска; он не включается в качестве частично индексированного элемента.
- Частично индексированные элементы, расположенные на сайтах SharePoint и OneDrive , не включаются в оценку частично индексированных элементов, отображаемых в подробной статистике поиска. Однако частично индексированные элементы можно экспортировать при экспорте результатов поиска eDiscovery. Например, если вы выполняете поиск только на сайтах, предполагаемое число частично индексированных элементов будет равным нулю.
Вычисление соотношения частично индексированных элементов в организации
Чтобы понять, как ваша организация подвержена частично индексированных элементов, можно выполнить поиск всего содержимого во всех почтовых ящиках (с помощью пустого запроса по ключевому слову). В следующем примере 1 629 904 (146,46 ГБ) полностью индексированы и 10 025 (10,27 ГБ) частично индексированных элементов.
Вы можете определить процент частично индексированных элементов с помощью следующих вычислений.
Чтобы вычислить соотношение частично индексированных элементов в организации, выполните следующие действия.
(Total number of partially indexed items/Total number of items) x 100
(10025/1629904) x 100 = 0.62%
С помощью результатов поиска из предыдущего примера 0,62 % всех элементов почтовых ящиков частично индексируются.
Чтобы вычислить процент от размера частично индексированных элементов в организации, выполните следующие действия:
(Size of all partially indexed items/Size of all items) x 100
(10.27 GB/146.46 GB) x 100 = 7.0%
Таким образом, в предыдущем примере 7 % от общего размера элементов почтового ящика относятся к частично индексированных элементов. Как упоминалось ранее, большинство клиентов организаций имеют менее 1 % содержимого по объему и менее 12 % содержимого по размеру, которое частично индексируется.
Работа с частично индексированных элементов
В случаях, когда необходимо проверить частично индексированные элементы, чтобы убедиться, что они не содержат релевантных сведений, можно экспортировать отчет о поиске контента , содержащий сведения о частично индексированных элементах. При экспорте отчета о поиске контента обязательно выберите один из вариантов экспорта, который включает частично индексированные элементы.
При экспорте результатов поиска по обнаружению электронных данных или отчета о поиске с помощью одного из этих параметров экспорт включает отчет с именем Unindexed Items.csv. Этот отчет содержит большую часть той же информации, что и файл ResultsLog.csv; Однако файл неиндексированного Items.csv также содержит два поля, связанные с частично индексированными элементами: Теги ошибок и Свойства ошибки. Эти поля содержат сведения об ошибке индексирования для каждого частично индексированного элемента. Используя сведения в этих двух полях, вы можете определить, влияет ли ошибка индексирования для конкретного исследования.
Примечание.
Файл неиндексированного Items.csv также содержит поля с именами Тип ошибки и Сообщение об ошибке. Это устаревшие поля, содержащие сведения, аналогичные сведениям в полях Теги ошибок и Свойства ошибки , но с менее подробными сведениями. Эти устаревшие поля можно игнорировать.
Ошибки, связанные с частично индексированных элементов
Теги ошибок состоят из двух фрагментов информации: ошибки и типа файла. Например, в этой паре "ошибка-тип файла":
parseroutputsize_xls
parseroutputsize
— это ошибка и xls
тип файла, в который произошла ошибка. В случаях, когда тип файла не распознался или тип файла не применялся к ошибке, вы увидите значение noformat
вместо типа файла.
Ниже приведен список ошибок индексирования и описание возможной причины ошибки.
Тег ошибки | Описание |
---|---|
attachmentcount |
В сообщении электронной почты слишком много вложений, и некоторые из них не были обработаны. |
attachmentdepth |
Средство извлечения содержимого и средство синтаксического анализа документов обнаружили слишком много уровней вложений, вложенных в другие вложения. Некоторые из этих вложений не были обработаны. |
attachmentrms |
Не удалось декодировать вложение, так как оно было защищено RMS. |
attachmentsize |
Файл, вложенный в сообщение электронной почты, слишком велик и не может быть обработан. |
indexingtruncated |
При записи обработанного сообщения электронной почты в индекс одно из индексируемых свойств было слишком большим и было усечено. Усеченные свойства перечислены в поле Свойства ошибки. |
invalidunicode |
Сообщение электронной почты содержит текст, который не может быть обработан как допустимый Юникод. Индексирование для этого элемента может быть неполным. |
parserencrypted |
Содержимое вложения или сообщения электронной почты зашифровано, и Microsoft 365 не удалось декодировать содержимое. |
parsererror |
Во время синтаксического анализа произошла неизвестная ошибка. Обычно это происходит в результате ошибки программного обеспечения или сбоя службы. |
parserinputsize |
Вложение было слишком большим для обработки средства синтаксического анализа, и синтаксический анализ этого вложения не произошел или не был завершен. |
parsermalformed |
Вложение было неправильно сформировано и не удалось обработать средство синтаксического анализа. Этот результат может быть вызван старыми форматами файлов, файлами, созданными несовместимыми программами, или вирусами, которые притворяются чем-то иным, чем заявлено. |
parseroutputsize |
Выходные данные при синтаксическом анализе вложения были слишком большими и должны были быть усечены. |
parserunknowntype |
Вложение имеет тип файла, который Microsoft 365 не может обнаружить. |
parserunsupportedtype |
Вложение имеет тип файла, который может обнаружить Office 365, но синтаксический анализ этого типа файла не поддерживается. |
propertytoobig |
Значение свойства электронной почты в Магазине Exchange было слишком большим, чтобы его можно было извлечь, и сообщение не удалось обработать. Обычно это происходит только со свойством body сообщения электронной почты. |
retrieverrms |
Ретриверу содержимого не удалось декодировать сообщение, защищенное RMS. |
wordbreakertruncated |
Во время индексирования в документе было обнаружено слишком много слов. Обработка свойства остановлена при достижении предела, и свойство усекается. |
Поля ошибок описывают, на какие поля влияет ошибка обработки, указанная в поле Теги ошибок. Если вы выполняете поиск по свойству, например subject
или participants
, ошибки в тексте сообщения не повлияют на результаты поиска. Это может быть полезно при определении того, какие частично индексированные элементы могут потребоваться для дальнейшего изучения.