测试基于精确数据匹配的敏感信息类型

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

创建 (EDM) 敏感信息类型 (SIT) 的精确数据匹配后,在验证敏感信息表是否已完成上传和索引编制一小时后,可以使用 Microsoft Purview 合规性门户“敏感信息类型”部分中的 Test 函数来测试它是否检测到要保护的信息。

注意

现有 EDM SIT 中的更改可能需要一些时间才能在整个系统中传播。 如果要对 EDM SIT 进行更改以排查检测问题,请确保在进行这些更改后至少等待一小时,然后使用 Test 函数验证其影响。

无论使用哪种方法进行测试,测试结果都将包括特定 EDM SIT 和为该 EDM SIT 配置的主要元素的匹配项。

测试 EDM SIT 的方法

有两种方法可用于测试 EDM SIT。

方法 在新的 EDM 体验中可用 在新的和经典 EDM 体验中可用
敏感信息类型 (SIT) 方法
EDM 分类器方法

注意

如果使用经典 EDM 体验,则必须使用 SIT 方法。

使用敏感信息类型方法测试 EDM SIT

若要使用 敏感信息类型 方法测试 EDM SIT,请执行以下步骤。

为正在使用的门户选择相应的选项卡。 若要了解有关 Microsoft Purview 门户的详细信息,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 登录到 Microsoft Purview 门户>信息保护>Classifiers>敏感信息类型

  2. 从列表中选择 EDM SIT,然后选择“ 测试 ”图标。

  3. 在浮出控件窗格中,上传包含要检测的数据的文件。 例如,创建一个包含敏感信息表中行子集的文件。 如果在架构中使用 了可配置的匹配 功能来定义忽略的分隔符,请确保示例文件包含带和不带这些分隔符的示例。

  4. 选择 “测试”。

  5. 上传并扫描文件后,检查与 EDM SIT 的匹配项。

  6. 如果 SIT 中的 Test 函数检测到匹配项,请验证 SIT 是否未对其进行剪裁或错误地提取匹配项。 常见问题包括:

    • 仅提取应检测到的完整字符串的子字符串
    • 仅选取多单词字符串中的第一个单词
    • 在提取中包含额外的符号或字符

有关使用正则表达式的详细信息,请参阅 正则表达式语言 - 快速参考

使用 EDM 分类器方法测试 EDM SIT

为正在使用的门户选择相应的选项卡。 若要了解有关 Microsoft Purview 门户的详细信息,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 登录到 Microsoft Purview 门户>信息保护>Classifiers>EDM 分类器

  2. 确保“ 新建 EDM 体验 ”切换开关设置为“ 打开”。

  3. 从列表中选择 EDM SIT,然后选择“ 测试 ”图标。

  4. 上传包含要检测的数据的文件。 例如,创建一个包含敏感信息表中行子集的文件。 如果在架构中使用 了可配置 的匹配功能来定义忽略的分隔符,请确保示例文件包含带和不使用这些分隔符的示例。

  5. 上传并扫描文件后,检查与 EDM SIT 的匹配项。

  6. 如果 SIT 中的 Test 函数检测到匹配项,请验证 SIT 是否未对其进行剪裁或错误地提取匹配项。 常见问题包括:

    • 仅提取应检测到的完整字符串的子字符串
    • 仅选取多单词字符串中的第一个单词
    • 在提取中包含额外的符号或字符

使用 PowerShell 测试 EDM SIT

若要使用 PowerShell 进行测试,请使用以下 PowerShell cmdlet:

Test-DataClassification  -ClassificationNames “[Your EDM sensitive info type]” -TexttoClassify “[your own text to scan for matches]” 

无论使用哪种方法进行测试,测试结果都将包括特定 EDM SIT 和为该 EDM SIT 配置的主要元素的匹配项。

注意

创建或编辑 EDM 敏感信息类型或 EDM 类型所基于的主 SIT 时,所有新内容 (以及在对 SCT 进行更改后修改的内容) 将针对与新定义匹配的内容进行爬网。 但是,在修改或重新编制索引之前,预先存在的内容不会被爬网。

若要强制对 SharePoint 网站或库中或 OneDrive 中的现有内容进行重新爬网,请按照 手动请求对网站、库或列表进行爬网和重新编制索引中的说明进行操作。

使用信息保护策略测试 EDM SIT

可以通过在策略中使用它来查看 EDM SIT 的使用位置,以及它在生产中的准确度:

  1. 创建 自动标记策略 并在 模拟概述中运行它。

  2. 将一些将触发 EDM SIT 的内容以及不会触发 EDM SIT 的内容添加到策略正在监视的位置。

  3. 打开“要审阅的项目”选项卡,检查匹配项。

  4. 根据需要优化策略。

对测试和优化的结果感到满意后,基于 EDM 的自定义 SIT 即可在信息保护策略中使用,例如:

疑难解答提示

如果 EDM SIT 未检测到数据中的任何匹配项,以下提示可能有助于诊断问题。

问题 疑难解答提示
未找到匹配项 使用哈希中介绍的命令确认是否已正确上传敏感数据 ,并上传敏感信息源表以获取完全数据匹配的敏感信息类型
未找到匹配项 测试在每种模式中配置主元素时使用的 SIT。 此测试验证 SIT 是否可以匹配项目中的示例。 使用错误定义的 SIT 作为 EDM SIT 的分类元素是 EDM 中检测失败的最常见原因。
为 EDM 类型中的主元素选择的 SIT 在项中找不到匹配项,或者找到的匹配项数少于预期 确认 SIT 支持内容中出现的分隔符和分隔符。 请确保包含架构中定义的忽略分隔符。
与主要元素关联的 SIT 在内容中查找匹配项,但 EDM SIT 不会。
  • 检查 REGEX 语句是在要检测的项的开头还是末尾捕获空格分隔符。 例如,查找包含分隔符的 \s 语句。 如果包含空格分隔符,则空格与数据表中的哈希值不匹配。 请改用单词分隔符,例如 \b
  • 检查 REGEX 语句,确保它们捕获要检测的整个字符串,而不仅仅是子字符串。 例如,请考虑电子邮件地址的此模式: \b[a-zA-Z]{2,30}@[a-zA-Z]{2,20}.[a-zA-Z]{2,3}\b。 此模式将正确匹配 user@contoso.com,但只会以不完整的形式捕获 user@contoso.co.jp
具有主要元素但没有定义的辅助元素的 EDM SIT 检测项,但不检测匹配项 (,或者检测到匹配项比预期少,) 需要主元素和辅助元素时。 如果用于辅助证据的列中的值不是由单个单词或不包含空格、逗号或其他单词分隔符的字符串组成,则可通过两种方法进行测试:
  1. 选择 “多令牌匹配 ”选项。
  2. 将值与 SIT 相关联,该 SIT 使用设计用于检测遵循所需模式的多字字符串 (例如,以大写字符) 开头的固定数量的连续单词,或列出该列中所有唯一值的关键字 (keyword) 字典。 例如,如果某人的城市或居住地有其他证据列,则可以创建包含表中所有唯一城市名称的列表,然后使用该列表创建基于字典的敏感信息类型。

通过在 XML 中导出和编辑 EDM SIT 定义,将此 SIT 用作 EDM SIT 中相应列的分类元素。 有关详细信息,请参阅 手动创建规则包
SIT 测试函数根本不检测任何匹配项。 验证所选的 SIT 是否包含其他关键字或其他验证的要求。 对于内置 SCT,请参阅 敏感信息类型实体定义 ,以确定匹配每种类型的最低要求。
测试功能有效,但在 DLP 或自动标记规则中未检测到 SharePoint 或 OneDrive 项目 验证要查找的匹配项的文档是否实际显示在内容资源管理器中。 仅在应用 SIT 更改 创建的内容中检测到匹配项。 因此,如果未显示预期的匹配项,请重新爬网网站和库以获取任何预先存在的项。 有关重新爬网 SharePoint 和 OneDrive 的详细信息,请参阅 手动请求对网站、库或列表进行爬网和重新编制索引
不需要多个匹配项的 DLP 或自动标记规则不会触发 确保满足 EDM SIT 和基本 SIT 的邻近度要求。 例如,如果主元素和支持关键字之间的最大距离为 300 个字符,但关键字仅存在于长表的第一行中,则只有匹配值的前几行可能满足邻近要求。 修改 SIT 定义以支持更宽松的邻近感应规则,或者对其他证据条件使用 文档中的“任意位置 ”选项。
EDM SIT 检测不一致或不稳定 确保用作 EDM SIT 中主要元素基的 SIT 未检测到不必要的内容。 使用与过多不相关的内容(如 任何 单词、 任何 数字或 所有 电子邮件地址)匹配的 SIT 可能会导致服务忽略相关的匹配项。 检查与在内容资源管理器中用于主要元素的敏感类型匹配的内容块数。

若要估计 SIT 是否匹配过多内容,请执行以下操作:
  1. 将 Microsoft Purview 内容资源管理器中的内容项数除以创建敏感类型后的天数。
  2. 如果每天的匹配数在数十万或更多范围内,则主要 SIT 可能过于宽泛。

有关为 EDM SIT 选择正确敏感信息类型的建议和最佳做法,请参阅 了解基于完全数据匹配的敏感信息类型