调查电子数据展示中的部分索引项

从 Microsoft Purview 合规门户运行的电子数据展示搜索在运行搜索时,会在估计的搜索结果中自动包含部分索引的项目。 部分编制索引的项目是 SharePoint 上的 Exchange 邮箱项目和文档,OneDrive for Business网站出于某种原因未完全编制索引以供搜索。 大多数电子邮件和网站文档都已成功编制索引,因为它们属于 电子邮件的索引限制。 但是,某些项可能会超过这些索引限制,并且将部分编制索引。 下面是无法为搜索编制索引且在运行电子数据展示搜索时作为部分索引项返回的其他原因:

  • Email邮件具有无法打开的附加文件;这是导致部分索引电子邮件项的最常见原因。
  • 附加到电子邮件的文件过多。
  • 附加到电子邮件的文件过大。
  • 文件类型支持检索,但是特定文件出现检索错误。

尽管情况各不相同,但大多数组织客户的内容(按数量)不到 1%,按大小分列的内容不到 12%。 卷与大小之间存在差异的原因是,较大的文件包含无法完全编制索引的内容的概率较高。

有关内容搜索中部分索引项的详细信息,请参阅 在内容搜索中调查部分索引项

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

运行电子数据展示搜索后,搜索位置中部分索引项的总数和大小将列在搜索的详细统计信息中显示的搜索结果统计信息中。 请注意,这些项在搜索统计信息中称为 未编制索引的项 。 下面是影响搜索结果中返回的部分索引项数的一些因素:

  • 如果某个项已部分编制索引并且与搜索查询匹配,则它将包含在搜索结果项和部分索引项的计数 (和大小) 中。 但是,当导出同一搜索的结果时,仅包含搜索结果集的项目:它不作为部分索引项包含在内。
  • 位于 SharePoint 和 OneDrive 网站中的部分索引项 不包括 在搜索的详细统计信息中显示的部分索引项目的估算中。 但是,导出电子数据展示搜索结果时,可以导出部分索引项。 例如,如果仅搜索网站,则部分索引项的估计数量将为零。

计算组织中部分索引项的比率

若要了解组织对部分索引项的公开程度,可以使用空白关键字 (keyword) 查询) 对所有邮箱 (中的所有内容运行搜索。 在以下示例中,有 1,629,904 (146.46 GB) 完全索引项和 10,025 (10.27 GB) 部分索引项。

显示部分索引项的搜索统计信息示例。

可以使用以下计算来确定部分索引项的百分比。

计算组织中部分索引项的比率:

(Total number of partially indexed items/Total number of items) x 100

(10025/1629904) x 100 = 0.62%

通过使用上一示例中的搜索结果,0.62% 的所有邮箱项目已部分编制索引。

计算组织中部分索引项的大小百分比:

(Size of all partially indexed items/Size of all items) x 100

(10.27 GB/146.46 GB) x 100 = 7.0%

因此,在前面的示例中,邮箱项目总大小的 7% 来自部分索引项目。 如前所述,大多数组织客户的内容(按数量计算)不到 1%,按大小计算不到 12% 的内容(按部分编制索引)。

使用部分索引项

如果需要检查部分索引项以验证它们是否不包含相关信息,则可以导出包含部分索引项的信息 的内容搜索报表 。 导出内容搜索报表时,请务必选择包含部分索引项的导出选项之一。

选择第二个或第三个选项以导出部分索引项。

使用这些选项之一导出电子数据展示搜索结果或搜索报表时,导出将包括名为“未编制索引 Items.csv”的报表。 此报表包含与 ResultsLog.csv 文件相同的大部分信息;但是,未编制索引 Items.csv 文件还包括与部分索引项相关的两个字段: 错误标记错误属性。 这些字段包含有关每个部分索引项的索引错误的信息。 使用这两个字段中的信息有助于确定特定索引错误是否会影响调查。

注意

未编制索引 Items.csv 文件还包含名为 “错误类型”“错误消息”的字段。 这些是旧字段,包含的信息类似于 “错误标记”“错误属性” 字段中的信息,但信息不太详细。 可以放心地忽略这些旧字段。

错误标记由两个信息组成:错误和文件类型。 例如,在此错误/文件类型对中:

 parseroutputsize_xls

parseroutputsize 是错误, xls 是发生错误的文件的文件类型。 如果未识别文件类型或文件类型不适用于错误,则会看到值 noformat 代替文件类型。

下面是索引错误列表和错误可能原因的说明。

错误标记 说明
attachmentcount
电子邮件的附件过多,其中一些附件未处理。
attachmentdepth
内容检索器和文档分析程序发现嵌套在其他附件中的附件级别过多。 其中一些附件未处理。
attachmentrms
附件解码失败,因为它受 RMS 保护。
attachmentsize
附加到电子邮件的文件太大,无法处理。
indexingtruncated
将处理的电子邮件写入索引时,其中一个可索引属性太大,并且被截断。 截断的属性在“错误属性”字段中列出。
invalidunicode
电子邮件包含无法作为有效的 Unicode 进行处理的文本。 此项的索引可能不完整。
parserencrypted
附件或电子邮件的内容已加密,Microsoft 365 无法解码内容。
parsererror
分析过程中出现未知错误。 这通常是由软件 bug 或服务崩溃导致。
parserinputsize
附件太大,分析程序无法处理,并且该附件的解析未发生或未完成。
parsermalformed
附件格式不正确,无法由分析程序处理。 此结果可能是由于旧文件格式、不兼容软件创建的文件,或者假装是声明以外的病毒。
parseroutputsize
附件分析的输出太大,必须截断。
parserunknowntype
附件具有 Microsoft 365 无法检测到的文件类型。
parserunsupportedtype
附件具有Office 365可以检测到的文件类型,但不支持分析该文件类型。
propertytoobig
Exchange Store 中电子邮件属性的值太大,无法检索,无法处理邮件。 这通常只发生在电子邮件的正文属性上。
retrieverrms
内容检索程序无法解码受 RMS 保护的消息。
wordbreakertruncated
在编制索引期间,文档中标识了过多的单词。 达到限制时,属性的处理停止,属性将被截断。

错误字段描述哪些字段受“错误标记”字段中列出的处理错误的影响。 如果要搜索 或 participantssubject属性,邮件正文中的错误不会影响搜索结果。 这在确定哪些部分索引项可能需要进一步调查时很有用。