内容搜索中的部分索引项

提示

电子数据展示 (预览) 现已在新的 Microsoft Purview 门户中提供。 若要详细了解如何使用新的电子数据展示体验,请参阅 了解电子数据展示 (预览版)

运行搜索时,从 Microsoft Purview 合规性门户运行的内容搜索会自动在估计的搜索结果中包含部分索引的项目。 部分编制索引的项目是 SharePoint 和 OneDrive for Business 网站上的 Exchange 邮箱项目和文档,出于某种原因未完全编制索引以供搜索。 在 Exchange 中,部分编制索引的项目通常包含一个文件类型的文件 (,该文件类型无法) 附加到电子邮件进行索引。 下面是无法为搜索编制索引且在运行电子数据展示搜索时作为部分索引项返回的一些其他原因:

  • 文件类型是索引无法识别或不支持的文件类型。
  • 邮件具有无法打开的附加文件;这是导致部分编制索引的电子邮件项的最常见原因。
  • 文件类型支持检索,但是特定文件出现检索错误。
  • 附加到电子邮件的文件过多。
  • 附加到电子邮件的文件过大。
  • 文件使用非 Microsoft 技术进行加密。
  • 文件具有密码保护。

注意

大多数组织的内容(按数量)不到 1%,按大小(按部分编制索引)不到 12%。 卷和大小之间存在差异的原因是,较大的文件包含无法完全编制索引的内容的概率较高。

对于法律调查,组织可能需要查看部分索引项。 还可以指定在将搜索结果导出到本地计算机时,还是使用电子数据展示 (Premium) 准备结果进行分析时,是否包含部分索引项。 有关详细信息,请参阅 调查电子数据展示中的部分索引项

提示

如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从 Microsoft Purview 合规性门户试用中心开始。 了解有关 注册和试用条款的详细信息。

某些类型的文件(如位图 (.bmp) 或 MP3 (.mp3) 文件)不包含可编制索引的内容。 因此,Exchange 和 SharePoint 中的搜索索引服务器不会对这些类型的文件执行全文索引。 这些文件类型视为不受支持的文件类型。 还有一些文件类型已默认或由管理员禁用全文检索。 不支持和禁用的文件类型在内容搜索中标记为未编制索引的项。 如前所述,在运行搜索、将搜索结果导出到本地计算机或准备电子数据展示的搜索结果时,部分索引项可以包含在搜索结果集中, (Premium) 。

有关支持和禁用的文件格式的列表,请参阅以下文章:

可以在搜索结果中返回具有部分索引文件类型的邮件和文档

并非每封包含部分索引文件附件的电子邮件或每个部分索引的 SharePoint 文档都会自动返回为部分索引的项目。 这是因为其他邮件或文档属性(例如电子邮件中的 Subject 属性)和文档的 TitleAuthor 属性已编制索引,可供搜索。 例如,如果关键字出现在电子邮件的主题或文档的文件名或标题中,则搜索“financial”将返回具有部分索引的文件附件的项目。 但是,如果 关键字仅出现在文件的正文中,则消息或文档将作为部分索引项返回。

同样,当其他已编制索引且可搜索的邮件或文档属性与搜索条件匹配时,包含部分索引的文件附件和部分索引文件类型的文档将包含在搜索结果中。 可检索的邮件属性包括发送和接收日期、发件人和收件人、附件的文件名以及邮件正文中的文本。 可检索的文档属性包括创建和修改日期。 因此,即使邮件附件可能是部分索引项,如果其他邮件或文档属性的值与搜索条件匹配,该邮件也会包含在常规搜索结果中。

有关可以在合规性门户中使用电子数据展示工具搜索的电子邮件和文档属性的列表,请参阅 电子数据展示的关键字查询和搜索条件

注意

如果邮箱项目从已编制索引的文件夹移动到未编制索引的文件夹,则会设置一个标志来取消为该项目编制索引,并且该项目将从索引中删除,并且无法搜索。 稍后,如果同一项移回已编制索引的文件夹,则不会重置标志。 这意味着该项将保持未编制索引且不可搜索。

搜索结果中包含的部分索引项

组织可能需要识别部分索引项并对其执行其他分析,以确定它们是什么、它们包含什么,以及它们是否与特定调查相关。 如前所述,搜索的内容位置中的部分索引项将自动包含在估计的搜索结果中。 导出搜索结果或准备电子数据展示的搜索结果时,可以选择包括这些部分索引的项目 (Premium) 。

有关部分索引项,请牢记以下事项:

  • 运行电子数据展示搜索时,搜索查询 (返回的部分索引 Exchange 项的总数和大小) 显示在浮出控件页上的搜索统计信息中,并标记为 未编制索引的项目。 有关浮出控件页面上显示的部分索引项的统计信息不包括 SharePoint 网站或 OneDrive 帐户中的部分索引项。

  • 如果要从中导出结果的搜索是特定内容位置或组织中所有内容位置的搜索,则仅导出内容位置中包含与搜索条件匹配的项目的未编制索引的项目。 In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. 原因是,从组织中的许多位置导出部分索引的项目可能会增加导出错误的可能性,并增加导出和下载搜索结果所需的时间。

    若要从所有内容位置导出部分索引的项目以供搜索,请将搜索配置为返回 (的所有项目,方法是从搜索查询) 删除任何关键字,然后在导出搜索结果时仅导出部分索引的项目, (,方法是在“输出选项) ”下选择“仅具有无法识别格式、加密或由于其他原因未编制索引的项目”。

  • 如果选择在搜索结果中包含所有邮箱项目,或者搜索查询未指定任何关键字或仅指定日期范围,则部分索引项目可能不会复制到包含部分索引项目的 PST 文件。 这是因为所有项目(包括任何部分索引的项目)将自动包含在常规搜索结果中。

  • 部分索引项无法预览。 必须导出搜索结果才能查看搜索返回的部分索引项。

    此外,当您导出搜索结果并在导出中包含部分索引项目时,SharePoint 项目中的部分索引项目将导出到名为 Uncrawlable 的文件夹。 导出部分索引的 Exchange 项目时,根据部分索引项是否与搜索查询和导出设置的配置匹配,导出方式会有所不同。

  • 下表显示了索引项和部分索引项的导出行为,以及是否针对不同的导出配置设置包括每个项。

    导出配置 与搜索查询匹配的索引项 与搜索查询匹配的部分索引项 与搜索查询不匹配的部分索引项
    仅导出索引项
    Exported
    导出 (随导出) 导出的索引项一起包含
    未导出
    仅导出部分索引项
    未导出
    已将 (导出为部分索引项)
    已将 (导出为部分索引项)
    导出索引项和部分索引项
    Exported
    导出 (随导出) 导出的索引项一起包含
    已将 (导出为部分索引项)

日期范围和排除部分索引项

在“内容搜索和Microsoft Purview 电子数据展示”中,不能使用日期范围来排除搜索查询返回的部分索引项。 换句话说,在导出部分索引项时,超出日期范围的部分索引项仍作为部分索引项包含在搜索统计信息中。 在电子数据展示 (Premium) 中,可以收集部分索引项,然后在导出之前在审阅集中进行筛选。

消息的索引限制

下表描述了可能导致电子邮件在 Microsoft 365 中的电子数据展示搜索中作为部分索引项返回的索引限制。

有关 SharePoint 文档的索引限制列表,请参阅 SharePoint Online 的搜索限制

索引限制 注释 说明
最大附件大小 (不包括 Excel 文件)
150 MB
要分析索引的电子邮件附件的最大大小。 不会分析任何大于此限制的附件进行索引编制,并且带有附件的邮件将被标记为部分索引。

注意: 分析是索引服务从附件中提取文本,删除不必要的字符(如标点符号和空格),然后将文本划分为单词 (的过程,称为标记化) ,然后存储在索引中。
Excel 文件的最大大小
4 MB
位于网站上或附加到要分析用于编制索引的电子邮件的 Excel 文件的最大大小。 不会分析任何大于此限制的 Excel 文件,并且带有文件附件的文件或电子邮件将标记为未编制索引。
最大附件数
250
附加到电子邮件的最大文件数,该电子邮件将被分析为索引。 如果邮件的附件超过 250 个,将分析前 250 个附件并为其编制索引,并且邮件被标记为部分索引,因为它具有未分析的其他附件。
最大附件深度
30
已分析的嵌套附件的最大数目。 例如,如果电子邮件附加了另一封邮件,而附加邮件具有附加的 Word 文档,则将为 Word 文档和附加邮件编制索引。 此行为将持续到最多 30 个嵌套附件。
附加图像的最大数目
0
附加到电子邮件的图像会被分析程序跳过,并且不会编制索引。
分析项所花费的最大时间
30 秒
最多花费 30 秒来分析要编制索引的项。 如果分析时间超过 30 秒,则项目将标记为已部分编制索引。
最大分析器输出
200 万个字符
已编制索引分析器的最大文本输出量。 例如,如果分析程序从文档中提取了 800 万个字符,则只会为前 200 万个字符编制索引。
最大批注标记数
200 万
为电子邮件编制索引时,每个单词都会使用不同的处理指令进行批注,这些指令指定应如何为该单词编制索引。 每组处理指令称为批注标记。 为了保持 Office 365 中的服务质量,电子邮件的注释令牌限制为 200 万个。
索引中的最大正文大小
6700 万个字符
电子邮件正文及其所有附件中的字符总数。 为电子邮件编制索引时,邮件正文和所有附件中的所有文本都连接到单个字符串中。 索引的此字符串的最大大小为 6700 万个字符。
正文中唯一令牌的最大数目
1 百万
如前所述,标记是从内容中提取文本,删除标点符号和空格,然后将其划分为单词, (称为标记) 存储在索引中的结果。 例如,短语 "cat, mouse, bird, dog, dog" 包含 5 个标记。 但其中只有 4 个是唯一令牌。 每封电子邮件限制为 100 万个唯一令牌,这有助于防止索引因随机令牌而变得太大。

有关部分索引项的详细信息

  • 如前所述,由于邮件和文档属性及其元数据已编制索引,因此如果关键字出现在索引元数据中,关键字搜索可能会返回结果。 不过,如果该关键字仅出现在文件类型不受支持的项目的内容中,则相同的关键字搜索可能不会返回相同的项目。 在这种情况下,该项将作为部分索引项返回。
  • 如果搜索结果中包含部分索引项,因为它与搜索查询条件匹配,则导出搜索结果时,它不会包含在部分索引的项目中。
  • 虽然文件类型支持编制索引并编制索引,但可能存在索引或搜索错误,导致文件作为部分索引项返回。 例如,搜索大型 Excel 文件可能部分成功, (因为前 4 MB 已) 编制索引,但随后会失败,因为超出了文件大小限制。 在这种情况下,同一文件可能会随搜索结果一起返回,并且作为部分索引项返回。
  • 使用 Microsoft加密技术 加密并附加到符合搜索条件的电子邮件的文件可以预览,并在导出时解密。 目前, (使用Microsoft加密技术加密并存储在 SharePoint 或 OneDrive for Business) 中的文件将部分编制索引。
  • 使用 S/MIME 加密的电子邮件将部分编制索引。 这包括带有或不带文件附件的加密邮件。
  • 使用 Azure Rights Management 保护的电子邮件将编制索引,如果它们与搜索查询匹配,则会包含在搜索结果中。 权限保护的电子邮件已解密,可以预览和导出。 此功能要求你分配 RMS 解密角色,该角色默认分配给电子数据展示管理器角色组。
  • 如果创建与电子数据展示事例关联的基于查询的保留,则会保留所有部分索引的项。 这包括与保留的搜索查询条件不匹配的部分索引项。 有关创建基于查询的电子数据展示保留的详细信息,请参阅 创建电子数据展示保留