为电子数据展示 (高级版) 案例配置搜索和分析设置

提示

电子数据展示 (预览) 现已在新的 Microsoft Purview 门户中提供。 若要详细了解如何使用新的电子数据展示体验,请参阅 了解电子数据展示 (预览版)

可以配置每个 Microsoft Purview 电子数据展示 (Premium) 事例的设置,以控制以下功能:

  • 近似重复和电子邮件线程
  • 主题
  • 自动生成的审阅集查询
  • 忽略文本
  • 光学字符识别

提示

如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从 Microsoft Purview 合规性门户试用中心开始。 了解有关 注册和试用条款的详细信息。

为案例配置分析设置

如要为案例配置搜索和分析设置:

  1. 在“电子数据展示(高级版)”页上,选择该案例。
  2. “设置” 选项卡上的“ 搜索 & 分析”下,选择 “选择”。 将显示案例设置页。 这些设置应用于案例中的所有审阅集。

本文的以下部分介绍了可为案例配置的分析设置。

近似重复和电子邮件线程

在本部分中,可以设置重复检测、近重复检测和电子邮件线程的参数。 有关详细信息,请参阅 近重复检测电子邮件线程处理

  • 接近重复/电子邮件线程: 启用后,对审阅集中的数据运行分析时,重复检测、近重复检测和电子邮件线程将作为工作流的一部分包含在工作流中。
  • 文档和电子邮件相似性阈值: 如果两个文档的相似性级别高于阈值,则这两个文档将放在同一个接近重复的集中。
  • 最小/最大字数: 这些设置指定仅对至少具有最小字数和最多最大字数的文档执行近重复项和电子邮件线程分析。

主题

在本部分中,可以设置主题的参数。 有关详细信息,请参阅 主题

  • 主题: 启用后,当你对审阅集中的数据运行分析时,主题聚类分析将作为工作流的一部分执行。
  • 主题的最大数目: 指定在对审阅集中的数据运行分析时可以生成的最大主题数。
  • 在主题中包含数字: 启用后,生成主题时,将包含标识主题) 的数字 (。
  • 动态调整主题的最大数量: 在某些情况下,审阅集中可能没有足够的文档来生成所需数量的主题。 启用此设置后,电子数据展示(高级版)会动态调整最大主题数,而不是尝试强制实施最大主题数。

创建审阅集查询

如果选中“分析后自动创建供审阅保存的搜索”复选框,电子数据展示 (Premium) 自动生成名为“审阅”的审阅集查询。

For Review 自动生成的查询。

此查询基本上从审阅集中筛选出重复项。 这样,便可以查看审阅集中的唯一项。 本查询仅会对案例的审阅集运行分析时创建。 有关审阅集查询的详细信息,请参阅 查询审阅集中的数据

忽略文本

在某些情况下,某些文本会降低分析质量,例如添加到电子邮件的冗长免责声明,而不管电子邮件的内容如何。 如果你知道哪些是应忽略的文本,可以通过指定文本字符串以及文本排除分析功能(近似重复、电子邮件线程、主题和相关性)将其从分析中排除。 还支持将正则表达式 (正则表达式) 作为忽略的文本。

光学字符识别 (OCR)

启用此设置后,OCR 处理将在图像文件上运行。 OCR 处理在以下情况下运行:

  • 将保管人 和非保管数据源 添加到案例时。 当 OCR 应用于图像文件时,这些文件中的文本将在收集期间进行搜索。 OCR 处理在 高级索引 过程中执行。 OCR 仅在高级索引期间处理的项上运行。 例如,如果在高级索引期间处理已部分编制索引或存在其他索引错误的大型 PDF 文件,该文件也将应用 OCR。 换句话说,OCR 处理仅发生在在高级索引过程中重新编制索引的文件上。

这意味着在某些情况下,保管人被添加到案例中,但某些电子邮件附件不会针对 OCR 进行处理,因为在高级索引编制期间不会处理这些文件。

  • 当其他数据源中的内容 (未与保管人关联且添加到非保管数据源中的案例时,) 将添加到审阅集。
  • KeyQL 搜索 (集合估计) 不会对项运行 OCR,除非项存在索引错误,并且这些项必须为高级索引。

将数据添加到审阅集后,可以查看、搜索、标记和分析图像文本。 可以在审阅集中所选图像文件的文本查看器中查看提取的文本。 有关更多信息,请参阅: