电子数据展示搜索结果中的重复数据删除

本文介绍电子数据展示搜索结果的重复数据删除的工作原理,并说明了重复数据删除算法的限制。

使用电子数据展示工具导出电子数据展示搜索结果时,可以选择删除导出的结果。 这意味着什么? 如果默认启用重复数据删除 (,则不会) 启用重复数据删除,即使在搜索的邮箱中发现了同一邮件的多个实例,也会仅导出电子邮件的一个副本。 重复数据删除可减少导出搜索结果后必须查看和分析的项目数,从而节省时间。 但请务必了解重复数据删除的工作原理,并注意算法存在一些限制,这可能会导致在导出过程中将唯一项标记为重复项。

使用下列电子数据展示工具之一导出搜索结果时,本文中的信息适用:

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

如何识别重复消息

电子数据展示工具使用以下电子邮件属性的组合来确定邮件是否为重复邮件:

  • InternetMessageId - 此属性指定电子邮件的 Internet 消息标识符,它是引用特定邮件的特定版本的全局唯一标识符。 此 ID 由发送邮件的发件人的电子邮件客户端程序或主机电子邮件系统生成。 如果某人向多个收件人发送邮件,则每个邮件实例的 Internet 消息 ID 都是相同的。 对原始消息的后续修订将接收不同的消息标识符。
  • ConversationTopic - 此属性指定消息的会话线程的主题。 ConversationTopic 属性的值是描述整个会话文章的字符串。 会话由初始消息和答复初始消息发送的所有消息组成。 同一会话中的邮件具有 ConversationTopic 属性的相同值。 此属性的值通常是生成对话的初始消息的 Subject 行。
  • BodyTagInfo - 这是一个内部 Exchange 存储属性。 通过检查消息正文中的各种属性来计算此属性的值。 此属性用于标识消息正文中的差异。

在电子数据展示导出过程中,将针对与搜索条件匹配的每个邮件比较这三个属性。 如果两个 (或更多) 消息的这些属性相同,则这些消息被确定为重复消息,结果是如果启用重复数据删除,则只会导出消息的一个副本。 导出的消息称为“源项”。 有关重复邮件的信息包含在导出的搜索结果中包含的 Results.csvManifest.xml 报表中。 在 Results.csv 文件中,通过在“ 复制到项 ”列中的值来标识重复邮件。 此列中的值与导出的邮件的 “项标识” 列中的值匹配。

下图显示了重复邮件在 Results.csv 中的显示方式,以及 Manifest.xml 随搜索结果导出的报表。 这些报表不包括前面描述的电子邮件属性,这些属性在重复数据删除算法中使用。 相反,报表包含 Exchange 存储区分配给项的 “项标识” 属性。

在 Excel) 中查看 Results.csv 报表 (

查看有关 Results.csv 报表中重复项的信息。

在 Excel) 中查看 Manifest.xml 报表 (

查看有关 Manifest.xml 报表中重复项的信息。

此外,导出报告中还包含来自重复消息的其他属性。 这包括重复邮件所在的邮箱、邮件是否已发送到通讯组,以及邮件是抄送还是密件抄送给其他用户。

重复数据删除算法的限制

重复数据删除算法的一些已知限制可能会导致唯一项被标记为重复项。 请务必了解这些限制,以便决定是否使用可选的重复数据删除功能。

有一种情况是,重复数据删除功能可能会错误地将邮件标识为重复邮件,而不将其导出 (但仍在导出报表) 中将其引用为重复项。 这些是用户编辑但不发送的消息。 例如,假设用户在 Outlook 中选择邮件,复制邮件内容,然后将其粘贴到新邮件中。 然后,用户通过删除或添加附件或更改主题行或正文本身来更改其中一个副本。 如果这两条消息与电子数据展示搜索的查询匹配,如果在导出搜索结果时启用了重复数据删除,则只会导出其中一条消息。 因此,即使更改了原始消息或复制的消息,也没有发送修订后的消息,因此 InternetMessageIdConversationTopicBodyTagInfo 属性的值也未更新。 但如前所述,导出报表中列出了这两条消息

启用“写入时复制”页面保护功能时,也可以将唯一邮件标记为重复邮件,例如邮箱处于诉讼保留状态或 In-Place 保留状态。 在保存原始项目的修订之前,“写入时复制”功能会将原始邮件 (复制,并将其保存在用户的“可恢复项目”文件夹) 的“版本”文件夹中。 在这种情况下,修订后的副本和原始邮件 (在“可恢复的项目”文件夹中) 可能被视为重复邮件,因此只会导出其中一封邮件。

重要

如果重复数据删除算法的限制可能会影响搜索结果的质量,则导出项目时不应启用重复数据删除。 如果本部分所述的情况不太可能成为搜索结果中的一个因素,并且你希望减少最有可能重复的项目数,则应考虑启用重复数据删除。

更多信息

有关导出搜索结果的详细信息,请参阅: