了解基于确切数据匹配的敏感信息类型
敏感信息类型 (SIT) 用于帮助识别敏感数据,以便防止其被无意或不当共享。 它们还用于帮助在电子数据展示中查找相关数据,并将治理操作应用于某些类型的信息。 根据以下条件定义自定义 SIT:
- 模式
- 关键字 (keyword) 员工、社会安全号码或 ID 等证据
- 字符近似特定模式的证据
- 可信度
但是,如果需要使用精确或几乎完全的数据值的自定义 SIT,而不是基于泛型模式查找匹配值,该怎么办? 使用完全数据匹配 (基于 EDM) 的分类,可以创建自定义敏感信息类型,该类型旨在:
- 动态且轻松地刷新
- 减少误报
- 处理结构化敏感数据
- 更安全地处理敏感信息,不与任何人(包括 Microsoft)共享
- 与多种 Microsoft 云服务一起使用
提示
如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。
使用基于 EDM 的分类,可以创建自定义 SIT,以引用敏感信息数据库中的确切值。 数据库可以每天刷新,最多可以包含 1 亿行数据。 因此,随着员工、患者和客户来来去去,以及记录的更改,自定义敏感信息类型将保持最新且适用。 而且,可以将基于 EDM 的分类与策略结合使用,例如Microsoft Purview 数据丢失防护策略或 Microsoft Cloud App Security 文件策略。
下图显示了 EDM 分类的基本工作原理:
注意
Microsoft Purview 信息保护支持以下使用双字节字符集的语言:
- 简体中文
- 繁体中文
- 韩语
- 日语
此支持适用于敏感信息类型。 有关详细信息,请参阅 双字节字符集的信息保护支持:发行说明 (预览版) 。
EDM SIT 中的不同
使用 EDM SIT 时,了解一些独一无二的概念会很有帮助。
架构
架构是 XML 文件。 Microsoft Purview 使用该架构来确定数据是否包含与敏感信息类型旨在检测的字符串匹配的字符串。
架构 XML 文件定义:
- 架构的名称,后来称为 DataStore。
- 敏感信息源表包含的字段名称。 将架构字段名称映射到敏感信息源表中的列名的 1:1 映射。
- 哪些确证证据字段需要多标记匹配模式。
- 哪些数据字段可搜索。
- 每个字段是否支持可配置的匹配项。 可配置的匹配项是一个具有修改搜索的参数的匹配项,例如忽略搜索值中的分隔符和大小写。
敏感信息源表
敏感信息源表包含 EDM SIT 查找的值。 表由列和行组成。 列标题是字段名称,行是项的实例,行中的每个单元格都包含该字段的项实例的值。
下面是敏感信息源表的简单示例。
名字 | 姓氏 | Date of Birth |
---|---|---|
以 赛 亚 | 兰格 | 05-05-1960 |
安娜 | 鲍曼 | 11-24-1971 |
奥斯卡 | 病房 | 02-12-1998 |
规则包
每个敏感信息类型都有一个规则包。 在 EDM SIT 中使用规则包来定义 EDM SIT 的各种组件。 下表提供了每个组件的说明。
组件 | 说明 |
---|---|
Match | 指定要在精确查找中使用的主元素 (数据字段) 。 它可以是包含或不带校验和验证的正则表达式、关键字 (keyword) 列表、关键字 (keyword) 字典或函数。 |
分类 | 指定触发 EDM 查找的敏感信息类型匹配项。 |
支持元素 | 找到时提供证据的元素,有助于增加匹配的置信度。 例如,姓氏与实际社会安全号码非常接近。 支持元素可以是具有或不带校验和验证、关键字 (keyword) 列表、关键字 (keyword) 字典或单标记或多标记字符串匹配的正则表达式。 |
置信度 (高、中、低) |
指示除了主要元素之外,还检测到多少支持证据。 项目包含的支持证据越多,匹配项包含你要查找的敏感信息的置信度就越高。 有关置信度的详细信息,请参阅 敏感信息类型的基本部分。 |
邻近度 | 主元素和支持元素之间的字符数。 |
提供自己的架构和数据
Microsoft Purview 附带许多预定义的内置 SCT 。 这些 SIT 附带架构、REGEX 模式、关键字和置信度级别。 但是,使用 EDM SIT 时,你负责定义架构以及标识敏感项的主字段和辅助字段。 由于架构和主数据值以及辅助数据值都高度敏感,因此可以通过包含随机生成或自提供的盐值的哈希函数对其进行加密。 仅将哈希值上传到服务,因此敏感数据永远不会处于打开状态。
主要和辅助支持元素
创建 EDM SIT 时,可以在规则包中定义 主元素 字段。 然后,EDM 会搜索主元素的所有内容。 为使 EDM 能够检测到它们,必须可通过现有 SIT 发现主要元素。
注意
有关可用 SNET 的完整列表,请参阅 敏感信息类型实体定义
你需要找到一个内置 SIT,用于检测希望 EDM SIT 检测的敏感信息。 例如,如果 EDM SIT 架构将 美国社会安全号码 作为主要元素,则创建 EDM 架构时,会将其与美国 社会安全号码 (SSN) SIT 相关联。 主元素必须遵循定义的模式才能被检测。
在扫描项中找到主元素时,EDM 随后会查找 辅助 元素 (也称为 支持 元素) 。 与主要元素不同,辅助元素可以选择遵循模式。 如果辅助元素包含多个令牌,则这些元素要么需要与可以检测该内容的 SIT 相关联,要么可以针对多令牌匹配进行配置。 在所有情况下,辅助元素必须位于与主元素的某个接近范围内,才能检测到匹配项。
匹配的工作原理
EDM 的工作原理是将文档和电子邮件中的字符串与敏感信息源表中的值进行比较。 它使用此比较来确定表中是否存在扫描内容中的值。 确定是通过比较单向加密哈希来完成的。
提示
可以在 DLP 规则中同时使用 EDM SIT 和它们所基于的预定义 SCT,以改善敏感数据的检测。 使用置信度较高的 EDM SIT,使用置信度较低的预定义 SIT。 例如,使用 EDM SIT 来查找具有严格要求且置信度较高的社会保险号码和其他支持数据。 如果配置为高置信度匹配,则当仅检测到几个实例时,EDM 会生成 DLP 匹配。 若要在检测到大量事件时触发 DLP 匹配,请使用内置 SIT,例如 美国社会安全号码。
支持元素如何与 EDM 配合使用
如 EDM SIT 中的不同内容中所述,支持元素是在 发现时提供证据的元素,有助于增加比赛的置信度。
借助对 EDM SIT 的支持,可以查找并检测由多个字段组成的支持元素。 支持元素匹配可以包含关键字 (keyword) 列表、关键字 (keyword) 字典、单字母数字字符串或多标记字符串。
让我们看一个示例。 假设要检测美国社会安全号码。 为了增加匹配置信度,支持元素包括 first name
、 last name
和 date of birth
(DoB) 。 因此,源表如下所示:
Ssn | FirstName | LastName | DoB |
---|---|---|---|
987-65-4320 | 以 赛 亚 | 兰格 | 05-05-1960 |
078-05-1120 | 安娜 | 鲍曼 | 11-24-1971 |
219-09-9999 | 奥斯卡 | 病房 | 02-12-1998 |
在受保护文件中查找匹配的支持元素时,EDM SIT 会在检测到主元素后单独和组合) 检查每个支持元素 (。
例如,假设检测到第一个社会安全号码。 接下来,确切的数据匹配功能将查找源表中所有列的支持元素的组合:
- 以 赛 亚
- 兰格
- 05-05-1960
- 以赛亚·兰格
- 以赛亚 05-05-1960
- 兰格 05-05-1960
- 以赛亚·兰格 05-05-1960
多令牌匹配
多标记匹配设计为在证实证据字段包含多标记值,但无法轻松实现此类值与 SIT 的匹配时使用。 例如,如果字段Address
包含 或 123 Main Street, New York, NY
等1 Microsoft Way, Redmond, WA
值。
此功能允许 EDM 将内容中连续字词的哈希与数据源中多标记字段的哈希进行比较。 如果它们相同,EDM 将生成匹配项。 这样,EDM 可以检测多标记字段,例如名称、地址、医疗状况或任何其他可能包含多个单词的确证证据字段,只要它们在 EDM 架构中标记为多标记即可。
例如,如果选择“多令牌匹配”作为匹配选项,则可以获得两个额外的优势:
- 策略将检测与源表中各列的多个字段匹配的内容。
- 源表可以包含包含包含预配置字数的字符串值的字段。 下表显示了示例源表:
Ssn | 名称 | 街道地址 |
---|---|---|
987-65-4320 | 以赛亚·兰格 | 1432 林肯路 |
078-05-1120 | Ana Bowman | 8250 第一街 |
219-09-9999 | Oscar Ward | 424 205 第大道 |
使用多标记匹配时, “名称” 和“ 街道地址” 字段既作为独立的支持元素字符串进行匹配,又作为单个字段进行组合。 因此,当将多令牌字符串作为社会保险号 987-65-4320 的支持元素进行匹配时,匹配项为:
- 以赛亚·兰格
- 1432 林肯路
组合匹配时,匹配如下所示:
- 以赛亚·兰格 + 1432 林肯路
双字节字符集也支持多标记匹配,这些字符集通常不使用空格来分隔单词。
EDM 支持的服务
服务 | 位置 |
---|---|
Microsoft Purview 数据丢失防护 | - SharePoint - OneDrive - Teams 聊天 - Exchange Online - 设备 |
Microsoft Defender for Cloud Apps | - SharePoint - OneDrive |
自动标记 (服务端) | - SharePoint - OneDrive - Exchange Online |
客户端) 自动标记 ( | - Word - Excel - PowerPoint - Exchange 桌面客户端 |
客户管理的密钥 | - SharePoint - OneDrive - Teams 聊天 - Exchange Online - Word - Excel - PowerPoint - Exchange 桌面客户端 - 设备 |
电子数据展示 | - SharePoint - OneDrive - Teams 聊天 - Exchange Online - Word - Excel - PowerPoint - Exchange 桌面客户端 |
内部风险管理 | - SharePoint - OneDrive - Teams 聊天 - Exchange Online - Word - Excel - PowerPoint - Exchange 桌面客户端 |