Исследование частично индексированных элементов в обнаружении электронных данных

Поиск eDiscovery, выполняемый из Портал соответствия требованиям Microsoft Purview автоматически включает частично индексированные элементы в предполагаемые результаты поиска при выполнении поиска. Частично индексированные элементы — это элементы и документы почтового ящика Exchange в SharePoint и OneDrive для бизнеса сайтах, которые по какой-то причине не были полностью проиндексированы для поиска. Большинство сообщений электронной почты и документов сайта успешно индексируются, так как они находятся в пределах ограничений индексирования для сообщений электронной почты. Однако некоторые элементы могут превышать эти ограничения индексирования и будут частично индексированы. Ниже приведены другие причины, по которым элементы не могут быть проиндексированы для поиска и возвращаются как частично индексированные элементы при выполнении поиска eDiscovery:

  • Email сообщения имеют вложенный файл, который невозможно открыть. Это наиболее распространенная причина частично индексированных элементов электронной почты.
  • В сообщение электронной почты вложено слишком много файлов.
  • Размер файла, вложенного в сообщение электронной почты, превышает допустимый.
  • Тип файла поддерживает индексирование, но произошла ошибка индексирования определенного файла.

Хотя он и отличается, большинство клиентов организаций имеют менее 1 % содержимого по объему и менее 12 % содержимого по размеру, которое частично индексируется. Причина разницы между объемом и размером заключается в том, что большие файлы имеют более высокую вероятность содержать содержимое, которое не может быть полностью проиндексировано.

Дополнительные сведения о частично индексированных элементах в поиске контента см. в разделе Исследование частично индексированных элементов в поиске контента.

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

После выполнения поиска eDiscovery общее количество и размер частично индексированных элементов в расположениях, в которых был выполнен поиск, отображаются в статистике результатов поиска, которая отображается в подробной статистике поиска. Обратите внимание, что они называются неиндексными элементами в статистике поиска. Вот несколько вещей, которые повлияют на количество частично индексированных элементов, возвращаемых в результатах поиска.

  • Если элемент частично индексируется и соответствует поисковому запросу, он включается в число (и размер) элементов результатов поиска и частично индексированных элементов. Однако при экспорте результатов этого же поиска элемент включается только с набором результатов поиска; он не включается в качестве частично индексированного элемента.
  • Частично индексированные элементы, расположенные на сайтах SharePoint и OneDrive , не включаются в оценку частично индексированных элементов, отображаемых в подробной статистике поиска. Однако частично индексированные элементы можно экспортировать при экспорте результатов поиска eDiscovery. Например, если вы выполняете поиск только на сайтах, предполагаемое число частично индексированных элементов будет равным нулю.

Вычисление соотношения частично индексированных элементов в организации

Чтобы понять, как ваша организация подвержена частично индексированных элементов, можно выполнить поиск всего содержимого во всех почтовых ящиках (с помощью пустого запроса ключевое слово). В следующем примере 1 629 904 (146,46 ГБ) полностью индексированы и 10 025 (10,27 ГБ) частично индексированных элементов.

Пример статистики поиска, показывающей частично индексированные элементы.

Вы можете определить процент частично индексированных элементов с помощью следующих вычислений.

Чтобы вычислить соотношение частично индексированных элементов в организации, выполните следующие действия.

(Total number of partially indexed items/Total number of items) x 100

(10025/1629904) x 100 = 0.62%

С помощью результатов поиска из предыдущего примера 0,62 % всех элементов почтовых ящиков частично индексируются.

Чтобы вычислить процент от размера частично индексированных элементов в организации, выполните следующие действия:

(Size of all partially indexed items/Size of all items) x 100

(10.27 GB/146.46 GB) x 100 = 7.0%

Таким образом, в предыдущем примере 7 % от общего размера элементов почтового ящика относятся к частично индексированных элементов. Как упоминалось ранее, большинство клиентов организаций имеют менее 1 % содержимого по объему и менее 12 % содержимого по размеру, которое частично индексируется.

Работа с частично индексированных элементов

В случаях, когда необходимо проверить частично индексированные элементы, чтобы убедиться, что они не содержат релевантных сведений, можно экспортировать отчет о поиске контента , содержащий сведения о частично индексированных элементах. При экспорте отчета о поиске контента обязательно выберите один из вариантов экспорта, который включает частично индексированные элементы.

Выберите второй или третий вариант для экспорта частично индексированных элементов.

При экспорте результатов поиска по обнаружению электронных данных или отчета о поиске с помощью одного из этих параметров экспорт включает отчет с именем Unindexed Items.csv. Этот отчет содержит большую часть той же информации, что и файл ResultsLog.csv; Однако файл неиндексированного Items.csv также содержит два поля, связанные с частично индексированными элементами: Теги ошибок и Свойства ошибки. Эти поля содержат сведения об ошибке индексирования для каждого частично индексированного элемента. Используя сведения в этих двух полях, вы можете определить, влияет ли ошибка индексирования для конкретного исследования.

Примечание.

Файл неиндексированного Items.csv также содержит поля с именами Тип ошибки и Сообщение об ошибке. Это устаревшие поля, содержащие сведения, аналогичные сведениям в полях Теги ошибок и Свойства ошибки , но с менее подробными сведениями. Эти устаревшие поля можно игнорировать.

Теги ошибок состоят из двух фрагментов информации: ошибки и типа файла. Например, в этой паре "ошибка-тип файла":

 parseroutputsize_xls

parseroutputsize — это ошибка и xls тип файла, в который произошла ошибка. В случаях, когда тип файла не распознался или тип файла не применялся к ошибке, вы увидите значение noformat вместо типа файла.

Ниже приведен список ошибок индексирования и описание возможной причины ошибки.

Тег ошибки Описание
attachmentcount
В сообщении электронной почты слишком много вложений, и некоторые из них не были обработаны.
attachmentdepth
Средство извлечения содержимого и средство синтаксического анализа документов обнаружили слишком много уровней вложений, вложенных в другие вложения. Некоторые из этих вложений не были обработаны.
attachmentrms
Не удалось декодировать вложение, так как оно было защищено RMS.
attachmentsize
Файл, вложенный в сообщение электронной почты, слишком велик и не может быть обработан.
indexingtruncated
При записи обработанного сообщения электронной почты в индекс одно из индексируемых свойств было слишком большим и было усечено. Усеченные свойства перечислены в поле Свойства ошибки.
invalidunicode
Сообщение электронной почты содержит текст, который не может быть обработан как допустимый Юникод. Индексирование для этого элемента может быть неполным.
parserencrypted
Содержимое вложения или сообщения электронной почты зашифровано, и Microsoft 365 не удалось декодировать содержимое.
parsererror
Во время синтаксического анализа произошла неизвестная ошибка. Обычно это происходит в результате ошибки программного обеспечения или сбоя службы.
parserinputsize
Вложение было слишком большим для обработки средства синтаксического анализа, и синтаксический анализ этого вложения не произошел или не был завершен.
parsermalformed
Вложение было неправильно сформировано и не удалось обработать средство синтаксического анализа. Этот результат может быть вызван старыми форматами файлов, файлами, созданными несовместимыми программами, или вирусами, которые притворяются чем-то иным, чем заявлено.
parseroutputsize
Выходные данные при синтаксическом анализе вложения были слишком большими и должны были быть усечены.
parserunknowntype
Вложение имеет тип файла, который Microsoft 365 не может обнаружить.
parserunsupportedtype
Вложение имеет тип файла, который Office 365 может обнаружить, но анализ этого типа файла не поддерживается.
propertytoobig
Значение свойства электронной почты в Магазине Exchange было слишком большим, чтобы его можно было извлечь, и сообщение не удалось обработать. Обычно это происходит только со свойством body сообщения электронной почты.
retrieverrms
Ретриверу содержимого не удалось декодировать сообщение, защищенное RMS.
wordbreakertruncated
Во время индексирования в документе было обнаружено слишком много слов. Обработка свойства остановлена при достижении предела, и свойство усекается.

Поля ошибок описывают, на какие поля влияет ошибка обработки, указанная в поле Теги ошибок. Если вы выполняете поиск по свойству, например subject или participants, ошибки в тексте сообщения не повлияют на результаты поиска. Это может быть полезно при определении того, какие частично индексированные элементы могут потребоваться для дальнейшего изучения.