在电子数据展示中使用“处理”报表

处理报告

电子数据展示包括一个 进程管理器 ,该管理器列出所有范围限定为当前电子数据展示页面的进程。 例如,如果你位于 “搜索 ”页上,则进程管理器会列出与当前搜索相关的所有进程。 如果处于案例中,则进程管理器会列出与当前案例相关的所有流程。 进程管理器列表中的每个进程都包含一个详细的报告 .zip 文件,其中包含该过程完成后有关该进程的详细信息。 可以下载进程报告 .zip 文件,详细了解进程何时运行、应用的设置、使用的查询以及进程是否有任何项级或位置级错误。

若要详细了解处理报表电子数据展示,请观看以下视频:

重要

无法删除“ 进程管理器 ”页上列出的进程。 长时间运行的进程会在七天后自动超时。

进程类型和说明

管理搜索、审阅集和保留时,用户作会触发这些过程。

进程类型 领域 说明
添加以审阅 审阅集 用户向审阅集添加搜索结果,或从另一个审阅集将项目添加到审阅集中。 项将复制到Azure存储位置,然后对Azure存储位置中的项重新编制索引。 新索引将用于在数据集中查询和分析项目。
应用或更新保留 Hold 用户将数据源置于保留状态或更新保留状态。
导出 搜索
审阅集
用户从搜索或审阅集导出文档。 导出过程完成后,他们可以将导出的数据下载到本地计算机。
生成示例 搜索 在用户创建并运行新的搜索估算 (或重新运行现有搜索估算) 后,搜索工具将准备与搜索查询 () 匹配的示例项目子集,) 可以预览。 预览搜索结果有助于确定搜索的有效性。
生成统计信息 搜索 用户创建并运行或重新运行搜索估算后,搜索工具会在索引中搜索与搜索查询匹配的项目,并准备一个估算值,其中包括搜索的所有项的数量和总大小、搜索的数据源数以及搜索命中次数(如关键字)的其他相关模式, 敏感信息类型等。
运行分析 搜索 用户通过运行电子数据展示分析工具(如准重复检测、电子邮件线程分析和主题分析)来分析评审集中的数据。
Tag 审阅集 当用户在审阅集中查看文档时,在“标记”面板中选择“开始标记过程”时,将触发此过程。 用户可以在审阅集中标记文档,然后在视图文档面板中批量选择文档后启动此过程。

进程状态

下表描述了进程的不同状态:

状态 说明
被遗弃的 进程已自动停止。 此停止可能是由于处理时间过长或其他原因造成的。
已取消 用户取消了进程。
完成 该过程已成功完成。
已失败 该过程遇到错误,但未完成。 此错误可能是由格式错误的查询引起的。
正在进行 该过程正在进行中。 可以在该区域的进程管理器中监视 进程的 进度。

下载报表

所有进程都支持下载打包报表的功能。 打包的报表名称为 Reports-*caseName-EntityName-ProcessName-timestamp*.zip,是 EntityName 搜索或保留的用户给定名称。 根据进程,报表包含不同的 .csv 文件。

  • 摘要:跟踪进程开始时间、结束时间、项目总数或位置数以及提交流程请求的用户。 它还包含使用的搜索查询以及是否应用 了符合性边界 。 对于 “添加到审阅集 ”和“从 搜索过程中导出 ”,摘要报告包含影响添加到审阅集或导出的总项目计数的因素摘要。 报表名称为 Summary_*the date/time of the report*.csv
  • 设置:包含进程和值的枚举设置参数。 报表名称为 Settings_*the date/time of the report*
  • 统计信息:包含流程的所有统计信息详细信息,包括 (在进程提交期间选择了设置的所有类别,) 敏感信息类型、数据类型和通信参与者。 报表名称为 Statistics_*the date/time of the report*
  • 位置:跟踪进程范围内的所有数据源和关联位置。 包括用户/组实体名称、位置 (邮箱/站点 URL) ,以及为该位置返回的计数。 还包括位置的状态 (成功/错误和错误详细信息) 。 报表名称为 Locations_*the date/time of the report*
  • Items:跟踪处理的所有项目,包括项目 ID、项目位置、项目的主题/标题、项目类/类型以及成功/错误状态等信息。 报表名称为 Items_*the date/time of the report*

下表显示了进程类型和可用报告:

进程类型 摘要 设置 统计信息 位置 项目
添加以审阅 支持。 支持。 支持。 支持。
应用保留/重新运行策略 支持。 支持。
导出 (审阅集) 支持。 支持。 支持。 支持。
导出 (搜索) 支持。 支持。 支持。 支持。
生成示例 支持。 支持。 支持。 支持。
生成统计信息 支持。 支持。 支持。 支持。
编辑 支持。 支持。 支持。
Tag 支持。 支持。

摘要 CSV 报表

所有报告包都包含一个 Summary-*the date/time of the report*.csv 文件。 此文件包含以下信息:

概述

报告的此部分包含以下详细信息:

  • 作业 ID:分配给每个电子数据展示进程的唯一标识符,用于支持参考。
  • 案例名称:分配给电子数据展示事例的名称。
  • 搜索名称:进程运行时为电子数据展示事例中的特定搜索提供的名称。 此详细信息仅适用于 生成统计信息生成示例添加到审阅集和从搜索 导出 等过程。
  • 审阅集名称:进程运行时将添加搜索结果的审阅集的名称。 此详细信息仅适用于 “添加到审阅集 ”和 “从审阅集导出” 过程。
  • 导出名称:为导出指定的名称。 此详细信息仅适用于 “添加到审阅集 ”和 “从审阅集导出” 过程。
  • IsRetry:指示当前进程是否由 重试失败的位置 作触发。 如果值为 “是”,则包含聚合命中计数,位置报告详细说明失败的位置。 此详细信息仅适用于 生成统计信息 过程。
  • 查询:适用进程类型的查询条件。
  • StartTime:开始生成报表的日期和时间。
  • EndTime:报表生成完成的日期和时间。
  • SubmittedBySmtp:创建报表的用户的 SMTP 地址。
  • 应用了安全筛选器:指示是否在进程运行期间应用了安全筛选器。 “是 ”表示筛选器用于根据 PowerShell 中管理员设置的指定条件限制结果。
  • 位置限制:应用于将搜索限制为特定位置的筛选器。 若要查看筛选了哪些邮箱,可以将提供的查询与 Get-MailboxGet-Recipient cmdlet 和 -Filter 属性结合使用。 例如,如果筛选器属性为 Department -eq 'marketing',则使用 Get-Recipient -Filter“Department -eq 'marketing'检索相关邮箱。 输出列出了允许搜索的所有邮箱。
  • 内容限制:用于在搜索期间筛选内容的查询。 搜索结果中包含与此查询匹配的内容。 提供的查询可用于执行KeyQL搜索。

搜索结果

与搜索查询匹配的项目数的摘要,包括部分索引项或执行高级索引的项 (,具体取决于所选) 设置。 报告的此部分包含以下详细信息:

  • 索引项:与 Exchange 和 SharePoint 本机索引的查询匹配的项目数。
  • 部分索引项:可能与查询不匹配的部分索引项的数目。 如果选择包含部分索引项,则包含 。
  • 高级索引项:如果选择对部分索引项执行高级索引编制,则与查询匹配的项数。

消耗摘要

报告的此部分包含以下详细信息:

  • Microsoft 365 个内容数据:所有Microsoft 365 个数据的总数据大小。
  • Microsoft 365 元数据:所有Microsoft 365 个数据和 Microsoft 365 Copilot 数据的元数据总大小。
  • 非Microsoft 365 AI 内容数据:所有非Microsoft 365 AI 数据的总数据大小。 包括来自 Microsoft Fabric Copilot、智能 Microsoft Security Copilot 副驾驶® 的数据,以及来自企业和云应用程序的其他 AI 数据。
  • 非Microsoft 365 AI 元数据:所有非Microsoft 365 AI 数据的元数据总大小。

注意

如果没有有效的即用即付订阅,则不会导出数据或添加到评审集。 有关详细信息,请参阅 为新客户启用 Microsoft Purview 即用即付功能

错误

报告的此部分包含以下详细信息:

  • 检索异常:由于异常(如空文件、访问超时和类似问题)未导出或添加到审阅集的项目数。

警告

  • 具有处理错误的项:遇到处理错误但仍已导出或添加到审阅集的项目数。 这些错误可能是由文件类型不受支持、解密问题和类似问题引起的。

总计

报告的此部分包含以下详细信息:

  • 收集的项目总数:导出或添加到审阅集的项目总数。 此数字根据估计结果、可能增加或减少检索到的项目数的设置以及由于错误而未收集的项考虑在内。

Information

注意

此报表的 “信息 ”部分显示如何根据所选设置增加或减少项计数。 计算过程使用这些设置和更新搜索估计计数,因此在大多数情况下,计数不会完全加起来。 此信息可让你了解更改及其背后的原因。

报告的此部分包含以下详细信息:

  • 审阅集中的重复项 (跳过) :因为审阅集中已存在而跳过的项目。
  • 云附件:电子邮件和 Teams 对话中的云附件数,这些附件来自通过 SharePoint 或 OneDrive 共享的链接。 映射到 设置“访问链接 (邮件中的云附件)
  • 云附件版本:收集的云附件版本数,具体取决于是否选择在查询中包括多个最新版本。
  • 共享时的云附件数:表示从 SharePoint 或 OneDrive 共享的原始版本的云附件版本数。 此计数仅适用于应用了保留标签的云附件,这会在共享时保留文件的副本。
  • 上下文对话:收集的上下文聊天消息数,以及与查询匹配的消息。 此计数显示命中消息之前和之后收集的其他消息数。 映射到“包括 Teams 和Viva Engage对话”设置。
  • 合并为脚本的 Teams 对话:转换为 HTML 脚本文件的 Teams 聊天对话。 此转换导致许多 Teams 聊天消息合并为单个 HTML 脚本。 映射到“将对话组织为 HTML 脚本”设置。
  • SharePoint 文件版本:收集的 SharePoint 文件版本数取决于是否选择包含更多最新版本。
  • 作为 .csv 文件收集的 SharePoint 列表项:导出或添加同一 SharePoint 列表中的匹配项,以审阅设置为单个 SharePoint 列表 csv 项目。 映射到“收集附加到 SharePoint 列表及其子项的文件”设置。
  • 列表附件:收集的列表附件数。 映射到“收集附加到 SharePoint 列表的文件时包括列表附件 ”设置。
  • SharePoint 文件夹中的项目:从与查询匹配的 SharePoint 文件夹中展开的项目数。 映射到设置 “收集所有项” (即使它们与搜索查询) 不匹配
  • 从父项提取的项:从父项中提取的嵌入项或附加项数。 例如,此计数可能包括来自与查询匹配的电子邮件中的附件或嵌入图像。

设置 CSV 报表

设置报告可帮助你验证和解释已提交进程的配置。 此报表包含在可下载的报告包中,并捕获在提交过程期间选择的特定选项,例如“生成统计信息”、“添加到审阅集”和“导出”。

这些设置直接影响结果的范围和格式。 这些设置的一些示例包括:

  • 包含文档版本:确定要包含的文档版本数,这可能会显著增加导出的数据量。
  • 将对话组织为 HTML 脚本:影响 Teams 对话的线程化和呈现方式。
  • 访问邮件中的链接:影响从电子邮件和对话中显示的云附件链接检索文件。
  • 各种导出格式和选项:影响导出内容的组织和打包方式。
  • 解密设置:指示特定进程是否启用了关联的 Exchange 或 SharePoint 解密功能。

了解这些设置对于防御性和透明度至关重要。 该文件 settings.csv 用作提交时配置的内容的参考点,使你能够将实际输出与预期配置协调在一起。 在审查结果或响应法律或合规性查询时,这种理解尤其重要。

统计信息 CSV 报表

此报告提供有关在完成 “生成统计信息 ”过程时从搜索命中派生的所有模式的详细信息。 报表包含有关排名靠前的通信参与者、顶级项目类型、最顶层敏感信息类型等的信息。

该报告包含以下详细信息:

  • DataSourceName:与进程关联的数据源名称列表。 此信息指示人员或组的名称。
  • DateSourceType: 数据源的类型。 例如, GroupTeamsGroup
  • 位置:位置信息。 例如,站点的 URL 或邮箱的 SMTP 地址。
  • LocationType:位置类型。 例如,邮箱或站点。
  • LocationSubType:位置类型的子类型。 如果位置类型为 Mailbox,则子类型可能具有 PrimaryMailboxSystemMailbox 和其他子类型。 如果位置类型为 “网站”,则可能具有 OneDriveSite 和其他子类型。
  • OriginalStateName:StatName 的本机版本。
  • StatName:StatType 的名称。 例如,对于 StatType 关键字,可能的值是在查询中输入的关键字。
  • StatType: 统计信息的类型。 例如, 关键字通信参与者等。
  • :与当前数据源中的统计信息关联的值或计数。

项目 CSV 报表

此报表提供电子数据展示过程中处理的所有项的详细清单,例如使用 “添加查看集 ”或 “导出 ”作。 该过程自动生成此报告,并将其包含在输出中,以支持审核、可跟踪性和下游分析。 对于需要验证收集或导出内容的范围和准确性的用户,此报告非常有用。

文件中的每一行对应于单个项,并包含以下元数据等:

  • 日期源:标识项目 (邮箱、SharePoint 网站、Teams 聊天) 的起始位置。

  • 复合路径:其源容器中项的完整路径。

  • 主题/标题:电子邮件的主题行 () 或标题 (的文档) 项。

  • 日期:与项目关联的时间戳,例如发送日期或上次修改日期。

  • 添加者:显示项如何包含在作业中:

    • IndexedQuery:该项已编制索引,并且与搜索查询匹配。
    • UnindexedQuery:根据项目的部分索引内容和用户指定的设置来包含该项。
  • 状态:显示项是否已成功检索和处理。 如果由于访问问题、超时) 而未能 (检索项,则 ErrorWarning 字段将包括失败原因。

  • 其他元数据:可能包括文件扩展名、内容类型、工作负载和其他相关属性,具体取决于源和进程类型。

位置 CSV 报表

此报表全面概述了电子数据展示过程中的目标位置,例如 “搜索”、“ 添加到审阅集”“导出”。 此报表可帮助你了解该过程的范围,并评估不同位置的搜索结果的分布和相关性。

此报告有助于:

  • 热度映射:确定哪些位置产生了最相关的内容,哪些位置不会产生任何内容,从而帮助你可视化数据相关性的“热点”。
  • 查询优化:了解可能需要排除或更准确地定位哪些源。
  • 审核和验证:验证是否包含预期位置,并评估搜索范围的有效性。

通过分析 location.csv 报表,可以做出有关优化搜索策略和优化未来电子数据展示工作流范围的明智决策。

注意

如果多个邮箱共享同一 SMTP 地址,位置报告可能会显示多行。 出现这种情况是因为单个 SMTP 地址可能包含不同的邮箱子类型,例如主邮箱、系统或存档。 CSV 报表中的行计数可能超过统计信息视图中的位置卡显示的计数。 “统计信息”视图聚合同一 SMTP 地址下的所有邮箱,而不区分子类型。 有关按子位置划分的命中次数的更详细细目,请使用 CSV 报告,而不是 “统计信息” 视图。

报表中的每一行都表示唯一的内容位置,并包含以下关键详细信息:

  • 位置:位置的完整 URL 或 SMTP 地址。 对于组织范围的搜索,没有命中的网站的位置为空。 如果需要,请使用 LocationID 标识站点 URL。

  • 位置 ID: SharePoint 的网站 ID 或邮箱的邮箱 ID。

  • 位置子类型:指定位置的类型,例如 PrimaryMailboxSystemMailboxArchiveMailboxOneDriveSite

  • 计数:与搜索条件匹配的位置中的项数。

  • 大小:来自位置的响应项的总大小(以字节为单位)。

  • 状态:指示位置是否已成功处理。 如果无法搜索或导出某个位置,则 ErrorWarning 字段包括失败原因,例如权限问题或超时。