测试基于精确数据匹配的敏感信息类型

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

创建 (EDM) 敏感信息类型 (SIT) 的完全数据匹配后,在验证敏感信息表是否已完成上传和编制索引一小时后,可以使用合规性中心敏感信息类型部分中的测试函数来测试它是否检测到要检测的信息。

注意

已创建的 EDM SIT 中的更改可能需要一些时间才能在系统中传播。 如果要对 EDM 敏感信息类型进行更改以排查检测问题,请确保在进行这些更改后至少等待一小时,然后使用测试函数验证其影响。

在合规中心测试 EDM SIT

  1. 打开 合规性中心>数据分类>敏感信息类型

  2. 从列表中选择 EDM SIT,然后在浮出控件窗格中选择“ 测试 ”。 此选项仅适用于敏感信息类型。

  3. 上传包含要检测的数据的项目。 例如,创建一个包含敏感信息表中行子集的项。 如果在架构中使用了可配置的匹配功能来定义忽略的分隔符,请确保该项包含带和不带这些分隔符的示例。

  4. 上传并扫描文件后,检查与 EDM SIT 的匹配项。

  5. 如果 SIT 中的 Test 函数检测到匹配项,请验证它是否未对其进行剪裁或错误提取。 例如,仅提取它应该检测的完整字符串的子字符串,或者只选取多字字符串中的第一个单词,或者在提取中包含额外的符号或字符。 有关 正则表达式语言参考, 请参阅正则表达式语言 - 快速参考。

  6. 或者,可以使用以下 PowerShell cmdlet:

Test-DataClassification  -ClassificationNames “[Your EDM sensitive info type]” -TexttoClassify “[your own text to scan for matches]” 

注意

创建或编辑 EDM 敏感信息类型或 EDM 类型所基于的主 SIT 时,将对更改 SIT 后修改的所有新内容和内容进行爬网,以查找与新定义匹配的文本,但在修改或重新编制索引之前,不会对预先存在的内容进行爬网。

若要强制重新爬网 SharePoint 网站或库中或 OneDrive 中的现有内容,请按照 手动请求对网站、库或列表进行爬网和重新编制索引中的说明进行操作。

使用信息保护策略测试 EDM SIT

可以通过在策略中使用它来查看 EDM SIT 的使用位置及其在生产中的准确度:

  1. 创建 自动标记策略 并在 模拟概述中运行它。

  2. 将一些将触发 EDM SIT 的内容和一些不会触发 EDM SIT 的内容添加到策略正在监视的位置。

  3. 打开“要审阅的项目”选项卡,检查匹配项。

  4. 根据需要优化策略。

对测试和优化的结果感到满意后,基于 EDM 的自定义 SIT 即可在信息保护策略中使用,例如:

疑难解答提示

如果找不到任何匹配项,下面是一些故障排除提示。

问题 疑难解答提示
未找到匹配项 使用哈希中介绍的命令确认是否已正确上传敏感数据 ,并上传敏感信息源表中的确切数据匹配敏感信息类型
未找到匹配项 测试在每种模式中配置主元素时使用的 SIT。 这将确认 SIT 能够匹配项目中的示例。 使用错误定义的 SIT 作为 EDM 敏感信息类型的分类元素是 EDM 中检测失败的最常见原因。
为 EDM 类型中的主元素选择的 SIT 在项中找不到匹配项,或者找到的匹配项数少于预期 检查它是否支持内容中的分隔符和分隔符。 请确保包含架构中定义的忽略分隔符。
主元素 SIT 在项中查找匹配项,但 EDM SIT 不查找匹配项。 - 检查 REGEX 语句是否开始或结束捕获空格分隔符,例如 \s。 空格与数据表中的哈希值不匹配。 请改用类似于 \b 的单词分隔符。
- 检查 REGEX 语句,确保它们捕获要捕获的整个字符串,而不仅仅是子字符串。 例如,电子邮件地址 \b[a-zA-Z]{2,30}@[a-zA-Z]{2,20}的此模式。[a-zA-Z]{2,3}\b 将正确匹配 user@contoso.com ,但只会以不完整的形式捕获 user@contoso.co.jp
具有主要元素且未定义任何辅助元素的 EDM SIT 会检测项,但不会检测 (或检测到比预期少的匹配项,) 需要主元素和辅助元素时。 如果用于辅助证据的列中的值不是由不包含空格、逗号或其他单词分隔符的单个单词或字符串组成的,则需要将它们与 SIT 相关联,该 SIT 使用 REGEX 设计用于检测遵循所需模式的多字字符串 (例如以大写字符开头的固定数量的连续单词) , 或列出该列中所有唯一值的关键字 (keyword) 字典。 例如,如果某人的城市或居住地有一个额外的证据列,则可以创建包含表中所有唯一城市名称的列表,并使用它创建基于字典的敏感信息类型。 通过在 XML 中导出和编辑 EDM SIT 定义,将此 SIT 用作 EDM 敏感信息类型中相应列的分类元素。 请参阅 手动创建规则包
SIT 测试函数根本不检测任何匹配项。 检查所选的 SIT 是否包含其他关键字或其他验证的要求。 对于内置 SCT,请参阅 敏感信息类型实体定义 ,以验证匹配每种类型的最低要求。
测试功能有效,但在 DLP 或自动标记规则中未检测到 SharePoint 或 OneDrive 项目 检查你希望匹配的文档是否显示在内容资源管理器中。 如果不存在,请记住,只有在对敏感信息类型进行更改后创建的内容才会显示为匹配项。 必须重新抓取网站和库,以便显示预先存在的项。 有关重新绘制 SharePoint 和 OneDrive 的详细信息 ,请参阅手动请求对网站、库或列表进行爬网和重新编制索引
不需要多个匹配项的 DLP 或自动标记规则不会触发 检查是否满足 EDM 类型和基本敏感信息类型的邻近感应要求。 例如,如果主元素和支持关键字之间的最大距离为 300 个字符,但关键字仅存在于长表的第一行中,则只有匹配值的前几行可能满足邻近要求。 修改 SIT 定义以支持更宽松的邻近度规则,或使用文档选项中的任何位置来获取其他证据条件。
EDM 类型的检测不一致或不稳定 检查用作 EDM 类型中主要元素基的敏感信息类型是否未检测到不必要的内容。 使用与过多不相关的内容(如任何字词、任何数字或所有电子邮件地址)匹配的 SIT 可能会导致服务饱和并忽略相关匹配项。 检查与在内容资源管理器中用于主要元素的敏感类型匹配的内容块数。
若要估计 SIT 是否匹配过多的内容:
- 将内容资源管理器中的内容项数除以创建敏感类型后的天数。
- 如果每天的匹配次数在数十万或数百万的范围内,则主要 SIT 可能太宽。 有关为 EDM 类型选择正确的敏感信息类型的建议和最佳做法,请参阅 了解基于数据匹配的敏感信息 类型。