Частично индексированные элементы в поиске контента
Совет
Обнаружение электронных данных (предварительная версия) теперь доступно на новом портале Microsoft Purview. Дополнительные сведения об использовании нового интерфейса обнаружения электронных данных см. в статье Сведения об обнаружении электронных данных (предварительная версия).
Поиск контента, выполняемый на портале соответствия требованиям Microsoft Purview, автоматически включает частично индексированные элементы в предполагаемые результаты поиска при выполнении поиска. Частично индексированные элементы — это элементы почтового ящика Exchange и документы на сайтах SharePoint и OneDrive для бизнеса, которые по какой-то причине не были полностью проиндексированы для поиска. В Exchange частично индексированные элементы обычно содержат файл (типа файла, который не может быть проиндексирован), который присоединяется к сообщению электронной почты. Ниже приведены некоторые другие причины, по которым элементы не могут быть проиндексированы для поиска и возвращаются как частично индексированные элементы при выполнении поиска eDiscovery:
- Тип файла не распознан или не поддерживается для индексирования.
- Сообщения имеют вложенный файл, который невозможно открыть; это наиболее распространенная причина частично индексированных элементов электронной почты.
- Тип файла поддерживает индексирование, но произошла ошибка индексирования определенного файла.
- В сообщение электронной почты вложено слишком много файлов.
- Размер файла, вложенного в сообщение электронной почты, превышает допустимый.
- Файл зашифрован с помощью технологий, разработанных не корпорацией Майкрософт.
- Файл защищен паролем.
Примечание.
Большинство организаций имеют менее 1 % содержимого по объему и менее 12 % по размеру, которые частично индексируются. Причина разницы между объемом и размером заключается в том, что большие файлы имеют более высокую вероятность содержать содержимое, которое не может быть полностью проиндексировано.
Для юридических расследований вашей организации может потребоваться частично проиндексированные элементы. Вы также можете указать, следует ли включать частично индексированные элементы при экспорте результатов поиска на локальный компьютер или при подготовке результатов к анализу с помощью обнаружения электронных данных (премиум). Дополнительные сведения см. в разделе Исследование частично индексированных элементов в обнаружении электронных данных.
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Типы файлов, которые не поддерживают поиск
Некоторые типы файлов, например растровые (.bmp) или MP3 (.mp3) файлы, не содержат содержимого, которое можно индексировать. В результате серверы индексирования поиска в Exchange и SharePoint не выполняют полнотекстовое индексирование этих типов файлов. Файлы таких типов считаются неподдерживаемыми. Кроме того, бывают типы файлов, для которых полнотекстовое индексирование отключено (по умолчанию или администратором). Неподдерживаемые и отключенные типы файлов в поиске контента помечаются как неиндексированные элементы. Как уже говорилось ранее, частично индексированные элементы могут быть включены в набор результатов поиска при выполнении поиска, экспорте результатов поиска на локальный компьютер или подготовке результатов поиска для обнаружения электронных данных (Премиум).
Список поддерживаемых и отключенных форматов файлов см. в следующих статьях:
- Обмен - Форматы файлов, индексированные поиском Exchange
- Обмен - Get-SearchDocumentFormat
- SharePoint - Расширения имен файлов для обхода по умолчанию и типы файлов, проанализированные в SharePoint
Сообщения и документы с частично индексированными типами файлов могут возвращаться в результатах поиска
Не каждое сообщение электронной почты с частично индексированным вложениями файла или каждый частично индексированные документы SharePoint автоматически возвращаются как частично индексированные элементы. Это связано с тем, что другие свойства сообщения или документа, такие как свойство Subject в сообщениях электронной почты и свойства Title или Author для документов, индексируются и доступны для поиска. Например, при поиске по ключевому слову "financial" возвращаются элементы с частично индексированным вложением файла, если это ключевое слово отображается в теме сообщения электронной почты или в имени файла или заголовке документа. Однако если ключевое слово отображается только в тексте файла, сообщение или документ будет возвращено в виде частично индексированного элемента.
Аналогичным образом сообщения с частично индексированными вложениями файлов и документами частично индексированного типа файлов включаются в результаты поиска, если другие свойства сообщения или документа, индексированные и доступные для поиска, соответствуют условиям поиска. К свойствам сообщений, индексируемым для поиска, относятся даты отправки и получения, отправитель и получатель, имя файла вложения и текст сообщения. К свойствам документов, индексируемым для поиска, относятся даты создания и изменения. Таким образом, даже если вложение сообщения может быть частично индексировано, сообщение будет включаться в обычные результаты поиска, если значение других свойств сообщения или документа соответствует условиям поиска.
Список свойств электронной почты и документов, которые можно искать с помощью средств обнаружения электронных данных на портале соответствия требованиям, см. в статье Запросы к ключевым словам и условия поиска для обнаружения электронных данных.
Примечание.
Если элемент почтового ящика перемещается из папки, индексируемой в папку, которая не индексируется, для флага устанавливается значение отмена индексации элемента, а элемент удаляется из индекса и не будет доступен для поиска. В дальнейшем, если этот же элемент будет перемещен обратно в папку, которая индексируется, флаг не сбрасывается. Это означает, что элемент останется неиндексируемым и недоступен для поиска.
Частично индексированные элементы, включенные в результаты поиска
Вашей организации может потребоваться определить и выполнить дополнительный анализ частично индексированных элементов, чтобы определить, что они собой представляют, что они содержат и имеют ли они отношение к конкретному исследованию. Как уже говорилось ранее, частично индексированные элементы в расположениях контента, в которых выполняется поиск, автоматически включаются в предполагаемые результаты поиска. Вы можете включить эти частично индексированные элементы при экспорте результатов поиска или подготовке результатов поиска для обнаружения электронных данных (премиум).
Помните о частично индексированных элементах:
При выполнении поиска eDiscovery общее количество и размер частично индексированных элементов Exchange (возвращаемых поисковым запросом) отображаются в статистике поиска на всплывающей странице и помечаются как неиндексированные элементы. Статистика о частично индексированных элементах, отображаемых на всплывающей странице, не включает частично индексированные элементы на сайтах SharePoint или в учетных записях OneDrive.
Если поиск, из который вы экспортируете результаты, был поиском определенных расположений контента или всех расположений контента в вашей организации, будут экспортированы только неиндексированные элементы из расположений контента, содержащих элементы, соответствующие условиям поиска. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. Причина этого заключается в том, что экспорт частично индексированных элементов из многих расположений в организации может увеличить вероятность ошибок экспорта и увеличить время, затраченное на экспорт и скачивание результатов поиска.
Чтобы экспортировать частично индексированные элементы из всех расположений контента для поиска, настройте поиск так, чтобы он возвращал все элементы (удалив ключевые слова из поискового запроса), а затем экспортируйте только частично индексированные элементы при экспорте результатов поиска (выбрав только элементы, имеющие нераспознанный формат, зашифрованные или не индексированные по другим причинам в разделе Параметры вывода).
Если вы решили включить в результаты поиска все элементы почтового ящика или поисковый запрос не указывает ни одного ключевого слова или только указывает диапазон дат, частично индексированные элементы могут не копироваться в PST-файл, содержащий частично индексированные элементы. Это связано с тем, что все элементы, включая частично индексированные элементы, будут автоматически включены в обычные результаты поиска.
Частично индексированные элементы недоступны для предварительного просмотра. Необходимо экспортировать результаты поиска, чтобы просмотреть частично индексированные элементы, возвращаемые поиском.
Кроме того, при экспорте результатов поиска и включении частично индексированных элементов при экспорте частично индексированные элементы из элементов SharePoint экспортируются в папку Uncrawlable. При экспорте частично индексированных элементов Exchange они экспортируются по-разному в зависимости от того, соответствуют ли частично индексированные элементы поисковому запросу и конфигурации параметров экспорта.
В следующей таблице показано поведение экспорта индексированных и частично индексированных элементов, а также то, включены ли они в различные параметры конфигурации экспорта.
Экспорт конфигурации Индексированные элементы, соответствующие поисковому запросу Частично индексированные элементы, соответствующие поисковому запросу Частично индексированные элементы, которые не соответствуют поисковому запросу Экспортировать только индексированные элементы. Exported Экспортировано (входит в состав экспортированных индексированных элементов) Не экспортировано Экспорт только частично индексированных элементов Не экспортировано Экспортированные (как частично индексированные элементы) Экспортированные (как частично индексированные элементы) Экспорт индексированных и частично индексированных элементов Exported Экспортировано (входит в состав экспортированных индексированных элементов) Экспортированные (как частично индексированные элементы)
Диапазоны дат и исключение частично индексированных элементов
В поиске содержимого и обнаружении электронных данных Microsoft Purview нельзя использовать диапазон дат, чтобы исключить частично индексированные элементы из возвращаемых поисковым запросом. Другими словами, частично индексированные элементы, которые находятся за пределами диапазона дат, по-прежнему включаются как частично индексированные элементы в статистике поиска и при экспорте частично индексированных элементов. В eDiscovery (Премиум) частично индексированные элементы можно собирать, а затем фильтровать в наборе проверки перед экспортом.
Ограничения индексирования сообщений
В следующей таблице описаны ограничения индексирования, которые могут привести к возврату сообщения электронной почты в качестве частично индексированного элемента в поиске eDiscovery в Microsoft 365.
Список ограничений индексирования для документов SharePoint см. в разделе Ограничения поиска для SharePoint Online.
Ограничение индексирования | Примечания | Описание |
---|---|---|
Максимальный размер вложения (за исключением файлов Excel) |
150 МБ |
Максимальный размер вложения электронной почты, которое будет анализироваться для индексирования. Любое вложение, превышающее это ограничение, не будет проанализировано для индексирования, а сообщение с вложением будет помечено как частично индексировано. Заметка: Синтаксический анализ — это процесс, в котором служба индексирования извлекает текст из вложения, удаляет ненужные символы, такие как знаки препинания и пробелы, а затем делит текст на слова (в процессе, называемом токенизацией), которые затем хранятся в индексе. |
Максимальный размер файлов Excel |
4 МБ |
Максимальный размер файла Excel, расположенного на сайте или вложенного в сообщение электронной почты, которое будет проанализировано для индексирования. Любой файл Excel, превышающий это ограничение, не будет проанализирован, а файл или сообщение электронной почты, вложенное в файл, будут помечены как неиндексированные. |
Максимальное количество вложений |
250 |
Максимальное количество файлов, вложенных в сообщение электронной почты, которое будет проанализировано для индексирования. Если сообщение содержит более 250 вложений, первые 250 вложений анализируются и индексируются, а сообщение помечается как частично проиндексированные, так как оно содержит дополнительные вложения, которые не были проанализированы. |
Максимальная глубина вложения |
30 |
Максимальное количество вложенных вложений, которые анализируются. Например, если к сообщению электронной почты прилагается другое сообщение, а вложенное сообщение содержит документ Word, документ Word и присоединенное сообщение будут индексированы. Это поведение будет продолжаться для до 30 вложенных вложений. |
Максимальное число вложенных изображений |
0 |
Изображение, прикрепленное к сообщению электронной почты, пропускается анализатором и не индексируется. |
Максимальное время, затраченное на синтаксический анализ элемента |
30 секунд |
На анализ элемента для индексирования затрачивается не более 30 секунд. Если время синтаксического анализа превышает 30 секунд, элемент помечается как частично индексирован. |
Максимальное количество выходных данных средства синтаксического анализа |
2 миллиона символов |
Максимальный объем выходных данных текста из средства синтаксического анализа, который индексируется. Например, если средство синтаксического анализа извлекло из документа 8 миллионов символов, индексируются только первые 2 миллиона символов. |
Максимальное число маркеров заметок |
2 миллиона |
При индексировании сообщения электронной почты каждое слово помечается разными инструкциями по обработке, определяющими способ индексирования этого слова. Каждый набор инструкций по обработке называется маркером заметки. Для поддержания качества обслуживания в Office 365 существует ограничение в 2 миллиона маркеров заметок для сообщения электронной почты. |
Максимальный размер тела в индексе |
67 миллионов символов |
Общее количество символов в тексте сообщения электронной почты и всех его вложений. При индексировании сообщения электронной почты весь текст в тексте сообщения и во всех вложениях объединяется в одну строку. Максимальный размер индексированных строк составляет 67 миллионов символов. |
Максимальное число уникальных маркеров в тексте |
1 миллион |
Как уже говорилось ранее, маркеры являются результатом извлечения текста из содержимого, удаления знаков препинания и пробелов, а затем разделения его на слова (называемые маркерами), которые хранятся в индексе. Например, фраза "cat, mouse, bird, dog, dog" содержит 5 токенов. Но только 4 из них являются уникальными маркерами. Существует ограничение в 1 миллион уникальных токенов на сообщение электронной почты, что помогает предотвратить слишком большой индекс со случайными маркерами. |
Дополнительные сведения о частично индексированных элементах
- Как упоминалось ранее, так как свойства сообщений и документов и их метаданные индексируются, поиск по ключевым словам может возвращать результаты, если это ключевое слово отображается в индексированных метаданных. Тем не менее этот элемент может быть не включен в результаты, если ключевые слова встречаются только в содержимом неподдерживаемых типов. В этом случае элемент будет возвращен в виде частично индексированного элемента.
- Если частично индексируемый элемент включен в результаты поиска, так как он соответствует условиям поискового запроса, он не включается в частично индексированные элементы при экспорте результатов поиска.
- Хотя тип файла поддерживается для индексирования и индексируется, могут возникать ошибки индексирования или поиска, которые приводят к возврату файла как частично индексированного элемента. Например, поиск в большом файле Excel может быть частично успешным (так как индексируются первые 4 МБ), но затем завершается сбоем из-за превышения предельного размера файла. В этом случае возможно, что один и тот же файл возвращается с результатами поиска и в качестве частично индексированного элемента.
- Файлы, зашифрованные с помощью технологий шифрования Майкрософт и прикрепленные к сообщению электронной почты, соответствующем условиям поиска, можно просмотреть и расшифровать при экспорте. В настоящее время файлы, зашифрованные с помощью технологий шифрования Майкрософт (и хранящиеся в SharePoint или OneDrive для бизнеса), частично индексируются.
- Сообщения электронной почты, зашифрованные с помощью S/MIME, частично индексируются. Это также касается зашифрованных сообщений с вложенными файлами или без них.
- Сообщения электронной почты, защищенные с помощью Azure Rights Management, индексируются и будут включены в результаты поиска, если они соответствуют поисковому запросу. Защищенные правами сообщения электронной почты расшифровываются, их можно просмотреть и экспортировать. Эта функция требует, чтобы вам была назначена роль расшифровки RMS, которая по умолчанию назначается группе ролей диспетчера обнаружения электронных данных.
- При создании удержания на основе запроса, связанного с делом обнаружения электронных данных, все частично индексированные элементы помещаются на удержание. Сюда входят частично индексированные элементы, которые не соответствуют условиям поискового запроса для удержания. Дополнительные сведения о создании удержаний обнаружения электронных данных на основе запросов см. в разделе Создание удержания обнаружения электронных данных.