Microsoft Purview 电子数据展示 (Premium) 中的集合统计信息和报表

创建集合估计后,可以查看检索到的项的统计信息,例如包含与搜索条件匹配的项最多的项目的内容位置以及搜索查询返回的项目数。 还可以预览结果的子集。

确定要进一步检查的文档集后,可以将搜索结果添加到审阅集以收集和处理。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

搜索集合估计的统计信息

本部分介绍可用于集合估计的统计信息。 这些统计信息在集合估计的浮出控件页上的 “搜索统计信息 ”选项卡上可用。

集合估计

本部分显示集合返回的估计项的图形摘要。 这表示与集合的搜索条件匹配的项数。 此信息可让你了解集合返回的估计项数。

  • 按位置列出的估计项:集合返回的估计项总数。 此外,还会显示邮箱中和位于站点中的特定项目数。
  • 具有命中次数的估计位置:包含集合返回的项目的内容位置总数。 还会显示特定数量的邮箱和站点位置。
  • 按位置 (的数据量(以 MB) 为单位):集合返回的所有估计项的总大小。 还会显示邮箱项目和网站项的特定大小。

集合估算的集合估计部分。

条件报告

本部分显示有关集合搜索查询的统计信息,以及与搜索查询的不同部分匹配的估计项数。 可以使用这些统计信息来分析与搜索查询的每个组件匹配的项数。 这可以帮助你优化集合的搜索条件,并在必要时缩小集合的范围。

  • 位置类型:查询统计信息适用的内容位置类型。 Exchange 的值指示邮箱位置;SharePoint 的值指示网站位置。
  • 部分:统计信息适用的搜索查询部分。 主要 指示整个搜索查询。 关键字 指示行中的统计信息适用于特定关键字。 如果在集合中的搜索查询中使用关键字 (keyword) 列表,则此表中包括查询的每个组件的统计信息。
  • 条件:为返回相应行中显示的统计信息的集合估计运行的搜索查询的实际组件 (关键字 (keyword) 或条件) 。
  • 具有命中次数的位置:“位置类型”列 (指定的内容位置数) ,其中包含与“条件”列中列出的主要查询或关键字 (keyword) 查询匹配的项目。
  • :与 “条件” 列中列出的查询匹配的指定内容位置) (项数。 如前所述,如果某个项包含要搜索的关键字 (keyword) 的多个实例,则此列中仅计数一次。
  • 大小 (MB) :在指定内容位置 (找到的所有项目的总大小,) 与 “条件” 列中的搜索查询匹配。

集合估算的条件报告部分。

最常用位置

本部分显示有关集合返回的项最多的特定内容位置的统计信息。

  • 位置:位置名称 (邮箱的电子邮件地址和) 站点的 URL。
  • 位置类型:邮箱将具有 Exchange 类型,SharePoint 网站将具有 SharePoint 类型。
  • :集合返回的内容位置中的估计项数。
  • 大小:每个内容位置中估计项的总大小。

集合估算的“热门位置”部分。

已提交集合的统计信息和报告

本部分介绍将集合提交到审阅集后可用的统计信息,包括添加到审阅集的实际项数。 除了加载集信息 (这些统计信息,) 提供有关添加到事例的内容的历史信息。

将集合提交到审阅集后,以下选项卡将显示在已提交连接的浮出控件页上。 每个选项卡都包含有关集合的不同类型的信息。

已提交集合的浮出控件页上的选项卡。

集合的“摘要”选项卡

已提交集合的“ 摘要 ”选项卡包含多个部分,这些部分提供有关集合项、项估计和位置、索引、文件类型等的信息。

集合概述 (预览)

提交审阅集的“摘要”选项卡上的“集合概述”部分包含有关如何作为集合的一部分查找、检索和处理项目的信息。 本部分中的信息是初始收集估算期间收集和显示的信息的摘要,包括收集提交到评审集期间收集和处理的信息。 可以使用本部分中的信息来帮助更好地了解在收集提交和处理期间最终集合数据如何从估计数据演变。

此信息已分段并显示在以下子部分中:

  • 具有命中次数的位置:本部分汇总了基于集合估计中定义的条件搜索的位置数和命中位置数。 它还显示搜索的位置的数量和类型。

    具有命中次数的位置。

  • 预收集估算:本部分汇总了在提交集合之前为集合估计 (计算的项数和总项的大小) 。 还会显示 已部分编制索引 的任何项的计数。

    预收集估计值。

  • 集合项:此部分显示类型、计数和所有在集合提交到审阅集期间从具有命中次数的位置检索到的项目的说明。 在此过程中,在处理过程中可能会添加和合并项目。 添加和合并可能包括下表中包含的类型:

    项目类型 项目类型说明
    具有命中次数的项目 通过搜索找到的估计项数。
    审阅集重复项 不会收集已在同一审阅集中的项目。
    搜索重复项 不会收集相同项的重复实例。
    所有版本 将收集 SharePoint 中的所有项目版本。
    历史版本 收集 SharePoint 维护的历史版本。
    云附件 云附件是从 SharePoint 链接中标识和收集的。
    共享版本 除了项目的最新版本之外,还会收集项目的共享版本。
    上下文 Teams 对话 收集可能相关的其他聊天消息。
    合并的聊天脚本 收集的聊天消息合并为较少的 HTML 脚本。
    检索异常 访问超时、空文件和其他异常。
    收集的项总数 从各个位置收集的项总数。
  • 处理到审阅集:此部分显示从集合估计添加到审阅集的项目的类型、计数和说明。 为准备审阅,将解压缩、扫描文本、重新编制索引和处理项目。

    正在审阅集。

集合内容

提交的审阅集的“摘要”选项卡上的“集合内容”部分包含有关从集合中的数据源收集并添加到审阅集的项目的统计信息和其他信息。

  • 提取的项总数。 添加到审阅集的项总数。 此数字指示添加到审阅集的父项和子项的总和。

    提示

    将光标悬停在父项或子项栏上以显示父项或子项的总数。

  • 父项。 用于收集已添加到审阅集的项的集合返回的项数。 此数字对应于 (,并且等于) 集合参数 部分中显示的估计项数。 他收集用于收集已添加到审阅集的项的父项数。

    父项可能包含多个子项。 例如,如果电子邮件包含附加文件或具有云附件,则电子邮件是父项。 在这种情况下,附加文件或云附件的目标文件被视为子项。 提交集合时,父项和任何相应的子项 ((如附加文件和云附件) )将作为单个项目或文件添加到审阅集。

  • 子项。 添加到审阅集的子项数。 仅作为文件附件和云附件的子项作为单个文件添加到审阅集。 其他类型的子项(如电子邮件签名和图像)从父项中提取,然后由光学字符识别 (OCR) 处理,以从子项中提取任何文本。 然后,从这些类型的子项中提取的文本将添加到其父项,以便你可以在审阅集中查看它。 电子数据展示 (Premium) 不将子项作为单独的文件添加到审阅集,从而通过限制审阅集中的潜在非重要项目数来帮助简化评审过程。

  • 唯一项。 添加到审阅集的唯一项数。 唯一项对审阅集是唯一的。 当第一个集合添加到新的审阅集时,所有项目都是唯一的,因为审阅集中没有以前的项目。

  • 标识的重复项。 由于审阅集中已存在同一项而未添加到审阅集中的项数。 有关重复项的统计信息有助于解释集合估计的估计项数与添加到审阅集的实际项数之间的差异。

索引

已提交的审阅集的“摘要”选项卡上的“索引”部分包含有关添加到审阅集的项目的索引信息。

  • 新的索引项。 添加到审阅集之前新编制索引的项数。 新索引项的示例是从父项中提取的子项,然后在将其添加到审阅集之前编制索引。 此外,未位于托管数据源中的项目和案例中“ 数据源 ”选项卡上列出的非托管内容位置的项目在添加到审阅之前,会对其进行索引。 例如,新编制索引的项将包括从其他位置收集的项。

  • 更新了索引项。 成功编制索引并添加到审阅集的部分索引项的数目。 此统计信息指示在将集合提交到审阅集时已成功编制索引的托管和非托管内容位置“ 数据源 ”选项卡中的部分索引项。

  • 索引错误。 在将部分索引项添加到审阅集之前无法编制索引的项的数目。 这些项目可能需要错误修正。

集合文件类型

提交的审阅集的“摘要”选项卡上的“集合文件类型”部分显示集合中包含的每种文件类型的项目计数。 文件类型包括电子邮件、图像、文档、音频、视频文件类型等。 有关受支持的文件类型的完整列表,请参阅 电子数据展示 (Premium) 中支持的文件类型

错误

已提交的审阅集的“摘要”选项卡上的“错误”部分显示集合提交期间遇到的错误的类型和数量。 错误可能包括大小为零的文件、受保护的文件、格式不正确的文件、内部错误等。 可以通过在此部分中选择“下载错误报告”来下载 .csv 格式 的错误报告

集合参数

已提交的审阅集的“摘要”选项卡上的“集合参数”部分显示用于收集已添加到审阅集的项目的集合信息。 此选项卡显示的信息类似于 “搜索统计信息 ”选项卡上的信息。本部分提供集合使用的搜索查询的快速快照、搜索的内容位置和估计的集合结果。 如前所述,此部分中的估计项数将等于 集合内容 部分中显示的父项数。

集合的“数据源”选项卡

数据源 ”选项卡包含有关保管和非托管数据源的信息。 “ 保管数据源 ”部分显示集合中包含的每个保管人的所有保管数据源。 “ 非保管数据源 ”部分显示集合的所有非保管数据源。 每个案例的“main数据源”选项卡上也提供了显示的数据源信息。

集合的“搜索统计信息”选项卡

搜索统计信息 ”选项卡上显示的统计信息与上次运行集合估算时的统计信息相同。 这包括集合估计、条件报告和顶部位置。 此信息从集合估计中保留,以供历史参考,并且可以与提交到审阅集的实际集合进行比较。

集合估计值与实际提交的集合之间的差异

运行集合估算时,满足收集条件的 (项数及其总大小) 的估计值将显示在“搜索统计信息”选项卡的“摘要”选项卡和“集合估计”部分中。将集合估计提交到审阅集后, (项的实际数量及其总大小) 添加审阅集通常不同于估计值。 在大多数情况下,添加到审阅集的项目数比从集合估计中估计的要多。 以下列表介绍了这些差异的最常见原因以及识别这些差异的提示:

  • 子项。 子项 ((如文件附件和云附件)) 从父项中提取并添加为单个文件。 子项数可能会增加添加到审阅集的项目数。 通常,在提交集合的“摘要”选项卡上的“集合内容”部分中标识的父项数应等于集合估计项数。

  • 重复项。 不会添加已添加到上一个集合中的审阅集中的集合估计项。 如前所述,集合中的重复项数显示在“摘要”选项卡上的“集合内容”部分中。

  • 集合配置选项。 将集合估计提交到审阅集时,必须选择包括对话线程、云附件和文档版本。 添加到审阅集的任何这些项均不包括在集合估计的估计值中。 仅当你提交集合时,才会识别并收集它们。 选择这些选项很可能增加添加到审阅集的项目数。

    例如,多个版本的 SharePoint 文档不包括在集合估计的估算中。 但是,如果在提交集合估计时选择包含所有文档版本的选项,则添加到审阅集的项目的实际 (数和总大小) 将增加。

    有关这些选项的详细信息,请参阅 将集合估计提交到审阅集

以下是集合估计的估计结果与实际提交结果不同的其他原因。

  • 估计集合估计结果的方式。 集合估计返回的搜索结果的估计值只是估计 (,而不是满足集合查询条件的项的实际计数) 。 若要编译电子邮件项目的估计值,请从 Exchange 数据库请求满足搜索条件的邮件 ID 列表。 但是,将集合提交到审阅集时,将重新运行该集合,并从 Exchange 数据库中检索实际消息。 因此,由于如何确定估计的项数和实际项数,可能会导致差异。

  • 在估计和提交集合估计时间之间发生的更改。 将集合估计提交到审阅集时,将重新运行搜索以收集搜索索引中符合搜索条件的最新项目。 在上次运行集合估算到将集合估计提交到审阅集之间的时间中,可能已创建、发送或删除满足搜索条件的其他项目。 估计集合估计结果时位于搜索索引中的项也有可能不再存在,因为它们在提交集合之前已从数据源中清除。 缓解此问题的一种方法是为集合指定日期范围。 另一种方法是保留内容位置,以便保留项目且无法清除。

  • 未编制索引的项。 如果集合估计包括搜索所有 Exchange 邮箱或所有 SharePoint 网站,则仅将包含与收集条件匹配的项目的内容位置的未编制索引的项目添加到审阅集。 换句话说,如果在邮箱或网站中找不到任何结果,则不会将该邮箱或网站中的任何未编制索引的项目添加到审阅集。 但是,来自所有内容位置的未编制索引的项 (即使不包含与集合查询) 匹配的项,也会包含在估计的收集结果中。

  • 部分索引项:选择此选项会将来自其他数据源的部分索引项添加到审阅集。 如果集合搜索了其他数据源 (,如集合向导) 的 “其他位置 ”页上指定的那样,则可能有来自这些位置的部分索引项要添加到审阅集。 保管和非托管数据源通常没有部分索引项。 这是因为,将保管和非托管数据源添加到案例时,高级索引过程会重新编制项目索引。 此外,添加部分索引项会增加添加到审阅集的项目数。

    将部分索引项添加到审阅集后,可以应用筛选器来专门查看这些项目。 有关详细信息,请参阅 方案示例:筛选部分索引项

    或者,如果集合估计包括特定内容位置 (这意味着特定邮箱或网站在集合估计向导的 “其他位置 ”页上指定) ,则将从搜索中指定的内容位置) 未排除的未编制索引的项目 (。 在这种情况下,未编制索引的项的估计数目与添加到审阅集的未编制索引项的数目应相同。