提高分类器准确性

2025-04-01

分类器（如敏感信息类型 (SIT) 和可训练分类器）用于各种类型的策略中来标识敏感信息。与大多数此类模型一样，有时它们将项识别为不敏感的项。或者，当项目实际为敏感项时，他们可能不会将其标识为敏感项。这些称为误报和误报。

本文介绍如何确认分类器匹配的项是 (匹配) 为真正还是误报 (不是匹配) ，并提供匹配/非匹配 反馈。可以使用该反馈来优化分类器以提高准确性。如果要帮助提高Microsoft提供的分类器的准确性，还可以向Microsoft发送文档的修订版本以及匹配，而不是匹配反馈。

“匹配”、“非匹配”和“上下文摘要”体验在以下方面提供：

数据资源管理器 - 对于 SharePoint 网站、OneDrive 网站
内容资源管理器 - 适用于 SharePoint 网站、OneDrive 网站
“敏感信息类型匹配的项目”页 - 对于 SharePoint 网站、OneDrive 网站
可训练的分类器“匹配项”页 - 适用于 SharePoint 网站、OneDrive 网站
Microsoft Purview 数据丢失防护 (DLP) 警报页 - 适用于 Exchange 中的 SharePoint 网站、OneDrive 和电子邮件
Microsoft威胁防护 (MTP) 警报页 - 适用于 Exchange 中的 SharePoint 网站、OneDrive 网站和电子邮件

上下文摘要体验在以下方面可用：

Microsoft Purview 信息保护 (MIP) 自动标记模拟匹配项 - 对于 SharePoint 网站、OneDrive 网站

提示

如果你不是 E5 客户，请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。立即在 Microsoft Purview 试用中心开始。了解有关注册和试用条款的详细信息。

适用对象

分类器	上下文摘要	修订的预览面板	匹配和不匹配
坐	是	是	是
自定义 SIT	是	否	是
指纹 SIT	否	否	是
完全数据匹配 SIT	不*	否	否
命名实体	不*	否	否
凭据扫描	否	否	否
内置可训练分类器	是的**	是	是
自定义可训练分类器	否	否	是

* MIP 自动标记模拟匹配项支持这些分类器 - 适用于 SharePoint 网站和 OneDrive 网站。

** 支持上下文摘要的内置可训练分类器列表。

重要

匹配/不匹配反馈和上下文摘要体验支持以下项：SharePoint 网站 & OneDrive 网站 - 内容资源管理器、敏感信息类型和可训练分类器匹配项、DLP 警报和 MTP 警报。 Exchange 中的电子邮件 - DLP 警报和 MTP 警报。上下文摘要体验支持中的项：SharePoint 网站和 OneDrive 网站 - 用于 MIP 模拟匹配项

许可和订阅

有关许可的信息，请参阅

已知限制

上下文摘要仅显示任何给定项中有限数量的匹配项，而不是所有匹配项。
上下文摘要和反馈体验仅适用于在为租户启用反馈体验后创建或更新的项目。在启用该功能之前分类的项目可能没有上下文摘要和反馈体验可用。

如何评估匹配准确性并提供反馈

上下文摘要体验（其中指示匹配项是真正 (匹配) 还是误报 (非匹配) ）在所有显示位置上都相似。

重要

必须已将 DLP 策略部署到 OneDrive 网站、SharePoint 网站或 Exchange 邮箱，这些策略使用 SCT 或可训练的分类器。在 上下文摘要 页中显示任何项目之前，还必须具有匹配项。

使用内容资源管理器

此示例演示如何使用 “上下文摘要 ”选项卡提供反馈。

登录到 Microsoft Purview 门户>解决方案>数据生命周期管理>探险家>内容资源管理器。
在“筛选标签”、“信息类型”或“类别”中键入要检查匹配项的 SIT 或可训练分类器的名称。
选择 SIT。
选择位置，并确保 “文件” 列中有非零值。 (唯一支持的位置是 SharePoint 和 OneDrive.)
打开文件夹，然后选择一个文档。
选择文档的 “敏感信息类型 ”列中的链接，以查看项目匹配的 SID 和置信度级别。
选择 “关闭”
打开文档并选择“ 上下文摘要 ”选项卡。
查看项目并确认它是否匹配。
如果匹配，请选择 “关闭”。你已完成。
如果不是匹配项，请选择“ 不匹配”。
如果犯了错误并选择了错误选项，请选择“关闭”旁边的“撤回反馈”。这会将项重新置于“不匹配”/状态。
查看项目并编辑或取消编辑任何文本。
选择“关闭”。

“使用敏感信息类型匹配项”页

可以在 “敏感信息类型 ”页中访问相同的反馈机制。

1.登录到 Microsoft Purview 门户>解决方案>数据生命周期管理>分类器>敏感信息类型。

在“搜索”字段中，输入要检查其准确性的 SIT 的名称。
打开 SIT。此时会显示“ 概述 ”选项卡。可在此处查看匹配项数的计数、不匹配项数的计数以及具有反馈的项目数。
选择“ 匹配项 ”选项卡。
打开文件夹并选择文档。此处仅支持 SharePoint、OneDrive 的位置。请确保 “文件” 列中有非零值。
选择项的 “敏感信息类型 ”列中的链接，以查看项匹配的 SID 和置信度级别。
选择“关闭”。
打开文档，然后选择“ 上下文摘要 ”选项卡。
查看项目并确认是否为匹配项。
如果是匹配项，请选择 “匹配” ，然后选择 “关闭”。
如果不匹配，请选择 “不匹配”。
如果犯了错误并选择了错误选项，请选择“关闭”旁边的“撤回反馈”。这会将项重新置于“不匹配”/状态。
选择“关闭”。

“使用可训练的分类器匹配项”页

1.登录到 Microsoft Purview 门户>解决方案>数据生命周期管理>分类器>可训练的分类器。

选择要检查其准确性的可训练分类器。
打开可训练的分类器。此时会显示“ 概述 ”选项卡。可在此处查看匹配项数的计数、不匹配项数的计数以及具有反馈的项目数。
选择“ 匹配项 ”选项卡。
打开文件夹并打开文档。此处仅支持 SharePoint、OneDrive 的位置。请确保 “文件” 列中有非零值。
打开文档，然后选择“ 上下文摘要 ”选项卡。
查看项目并确认是否为匹配项。
如果是匹配项，请选择“ 匹配” ，然后选择“ 关闭”。
如果不匹配，请选择 “不匹配”。
如果犯了错误并选择了错误选项，请选择“关闭”旁边的“撤回反馈”。这会将项重新置于“不匹配”/状态。
选择“关闭”。

“使用数据丢失防护警报”页

登录到 Microsoft Purview 门户>解决方案>数据丢失防护>警报。
选择警报。
选择 “查看详细信息”。
选择“ 事件 ”选项卡。
最大化 “详细信息 ”选项卡。
查看项目并确认是否为匹配项。
选择 “作”。
如果匹配，请关闭窗口。你已完成。
如果不是匹配项，请选择 “作” ，然后选择“ 不匹配”。
查看项目并编辑或取消编辑任何文本。
关闭该窗口。

使用反馈来优化分类器

如果 SIT 或可训练的分类器根据反馈返回过多的误报，请尝试其中一些选项来优化它们并提高其准确性。

可训练的分类器

不再支持重新训练自定义分类器。如果需要提高创建的可训练分类器的准确度，请删除分类器，然后重新开始使用更大的样本集。有关详细信息，请参阅可训练分类器入门。

敏感信息类型

提高找到的敏感信息类型的阈值以确定严重性。对单个分类器使用不同的阈值是可以的。
了解置信度及其定义方式。尝试使用低置信度和较高的实例计数，或者使用较高的置信度和较低的实例计数。
克隆和修改内置 SCT 以包含其他条件，例如关键字的存在、更严格的值匹配或更严格的格式要求。
修改自定义 SIT 以排除已知的前缀、后缀或模式。例如，如果电子邮件签名或文档标题包含电话号码，则检测电话号码的自定义 SIT 可能会触发每封电子邮件。从自定义 SIT 中排除组织的电话号码序列可能会阻止针对每封电子邮件或文档触发规则。
包括更多基于字典的 SCT 作为条件，以将匹配范围缩小到讨论相关文章的那些项。例如，可以通过要求存在诊断、诊断、病情、症状和患者等字词来增强匹配患者诊断的规则。
对于命名实体 SIT（如 所有全名），最好设置更高的实例计数阈值，例如 10 或 50。如果同时检测到人员姓名和社会安全号码 (SSN) ，则更有可能是真正的 SSN，并且我们降低了策略不触发的风险，因为检测到的 SSN 太少。