(新体验) 创建 EDM SIT 架构和规则包

可以在新体验中使用 Microsoft Purview 合规性门户中的单个工作流, (EDM) 架构和 EDM 敏感信息类型 (SIT) 创建确切的数据匹配。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

  • 新体验

如果要使用经典体验创建 EDM SIT,请参阅 创建 EDM SIT (经典体验) 。 如果需要帮助来决定使用哪种体验,请参阅 为你选择正确的 EDM SIT 创建体验

开始之前

在开始本文所述的过程之前,请确保完成以下文章中的步骤。

  1. 导出基于完全数据匹配的敏感信息类型的源数据
  2. (新体验) 创建 EDM SIT 示例文件

如果不熟悉基于 EDM 的 SIT 或其实现, 则必须 熟悉以下文章中的概念:

权限

必须具有 全局管理员合规性管理员 权限才能通过合规性门户创建、测试和部署自定义敏感信息类型。 有关角色和权限的详细信息,请参阅关于 Office 365 中的管理员角色

重要的注意事项

以下是创建 EDM 架构和基于 EDM 的 SCT 时应考虑的几个重要注意事项。

  • 在选择主要元素之前, 请查看 内置 SCT ,了解哪些元素最符合你的需求。

  • 对于每个 EDM SIT,必须至少选择一个主元素 且不超过 10 个主元素。 如果具有多令牌确证数据字段,请选择以下选项之一:

    1. 选择 “多令牌匹配”。
    2. 将多标记字段中的元素映射到可以检测该内容的 SIT。 (映射具有唯一值的字段越多,EDM SIT 就越准确。映射多个字段还有助于提高性能、降低处理负载并避免系统超时。)
  • 选择 SIT 的主要元素时, 请选择确保数据表中的每一行唯一的字段。 例如,不要使用 或 DateOfBirthFirstName字段。 为什么? 因为名字和出生日期很可能在整个敏感数据表中重复。 请改用具有唯一值的字段,例如 SocialSecurityNumberBankAccountNumber

  • 建议:从示例数据文件生成 EDM 架构。 在遵循此建议时,请确保示例数据文件符合以下要求:

    • 数据必须组织为包含列和行的表。 对列标题使用字段名称。 (表中的行对应于单个数据项。)
    • 字段名称只能包含字母数字字符。
    • 字段名称必须以字母开头,并且必须至少包含三个字母数字字符。
    • 如果不满足这些命名要求,上传示例数据文件时可能会出现错误。
  • 如果使用敏感信息的示例文件来配置 EDM SIT,则系统会建议最适合检测上传数据的每个字段的现有 SIT(如果此类 SIT 可用)。 Microsoft Purview 默认使用单令牌匹配来检测敏感内容。 因此,如果现有 SIT 无法检测 EDM 架构中某个字段的数据,则会应用单令牌匹配模式。 请务必 确保针对每个元素建议的 SIT 将检测到要监视的确切字符串:

    1. 确保建议的 SIT 不包含任何与要检测的内容不同的周围字符
    2. 确保建议的 SIT 不会排除存储在敏感信息表中的字符串的任何有效部分
    3. 确保使用的 SIT 与要检测的数据的格式非常匹配。 例如,查找类似Nine digits with optional hyphens or spaces内容,而不仅仅是 digits,或者检查而不是A combination of 32 characters consisting of letters and digits简单地 text strings

      使用与尝试检测的数据格式完全匹配的 SIT 是提高结果准确性并缩短匹配完成时间的另一种方法。

注意

在“ 下一) ”中向前导航 (向后导航时,所有数据都会保存 ( 退) 工具进行选择。 向后导航仅支持从顶级页面移动到顶层页面,以及从子页移动到子页面。 不能从顶层页向后导航到上一个子页,也不能从子页向后导航至前面的顶级页面。

创建 EDM 架构和 SIT

以下过程提供了使用新体验创建 EDM 架构和 SCT 的分步指南。 有关整个过程的概念概述和关系图,请参阅 EDM 工作流概述 () 的新体验

说明

  1. 在租户的合规性门户中,转到 “数据分类>EDM 分类器”。

  2. 确保“ 新建 EDM 体验 ”切换开关设置为“ 打开”。

  3. 选择 “+ 创建 EDM 分类器”。

  4. 命名 SIT 并添加说明。 系统将使用此名称(追加到 “架构”一词)来表示它生成的关联架构。

  5. 选择“下一步”。

  6. 选择要用于架构的方法: 上传包含示例数据的文件,或 手动定义数据结构。 (最佳做法是上传示例数据文件。此过程的其余部分假定此选项。)

    在任一情况下, 都需要 创建 EDM SIT 示例文件 (新体验) 中所述的信息。

  7. 选择“下一步”。

  8. 选择示例文件,然后选择“ 上传文件”。 选择“下一步”。
    (如果在上传过程中显示错误,请解决这些错误,然后重试。)

  9. “选择主元素” 页上:

    1. 在“ 主要元素 ”列中,选择主元素。 每个主元素都必须映射到 SIT。 最佳做法是在“匹配验证”列下选择显示“完全匹配”的字段。
    2. 在每个字段的 “匹配模式 ”列中,指定要应用以下哪一个匹配选项:
      • 选项 1: 不执行任何操作来接受系统建议的 SIT。
      • 选项 2: 展开下拉菜单。 在 “敏感信息类型 (SIT) ”下,选择铅笔 (“编辑) ”图标,然后选择另一个现有的 SIT。
      • 选项 3:“匹配模式 ”下,选择“ 单个令牌”。
      • 选项 4:“匹配模式 ”下,选择“ 多令牌”。
  10. 选择“下一步”。

  11. 为所选列中的数据配置设置

    • 默认情况下 ,“对所有列使用相同的设置 ”开关设置为 “打开 ”。 如果要对每个数据字段使用单独的设置,请将 切换设置为 “关闭”。
    • 默认情况下,选中“ 列中的数据不区分大小写 ”选项。 若要强制实施 区分大小写的 检测,请取消选中此框。
    • 如果需要,请选择 “忽略所有列中数据的分隔符和标点符号 ”选项,然后可以从列表中选择要忽略的分隔符和标点符号,也可以输入要忽略的自定义分隔符和标点符号。

重要

如果为架构中的主元素列选择 “忽略分隔符 ”选项,请确保将其映射到的 SIT 设计为使用和不使用所选分隔符来匹配数据。

  1. Choose Submit.



完成后,EDM 会为你标识的每个主要元素自动生成一个检测规则。 它还会创建一个 高置信度 规则和 一个中等置信度 规则。 与中等置信度规则相比,高置信度规则具有更多的匹配要求,而中等置信度规则的要求则高于低置信度规则。 (必须手动创建低置信度规则。) 可以在 “为主要元素配置检测规则 ”页上查看和编辑这些规则。

提示

那些未选择为主元素仍可用作支持) 证据的证明 (。 在定义的主要元素的邻近度中找到的支持元素越多,匹配为真正的置信度就越高。

建议

  • 在创建或编辑架构后至少等待一小时,然后下载并使用它上传 EDM 数据。 这有助于确保架构已与系统同步。 如果下载架构太快,则尝试通过命令行下载架构时,可能会显示错误消息。

  • 请勿使用 EDM 上传代理下载、手动编辑,然后重新上传架构。 这样做会导致错误,因为使用 EDM 上传代理下载架构会将标记添加到未通过架构创建检查的架构。

  • 若要帮助确保检测到所有确凿证据,请执行下列操作之一: - 将多令牌证明字段剪裁为多令牌功能支持的最大令牌数, (当前) 五个令牌。
    - 将多令牌字段映射到可以完全检测多令牌数据的 SIT。 - 创建或编辑 EDM SIT 后,使用以下 PowerShell cmdlet 对其进行测试,然后等待 24 小时,然后再在数据丢失防护 (DLP) 策略解决方案中对其进行测试。

Test-DataClassification  -ClassificationNames “[Your EDM sensitive info type]” -TexttoClassify “[your own text to scan for matches]” 

后续步骤