创建自定义敏感信息类型
如果预配置的敏感信息类型 (SCT) 不能满足你的需求,则可以创建和定义满足需求的自定义 SCT。 还可以复制并编辑内置 SIT。
自定义 SIT 将添加到 Microsoft.SCCManaged.CustomRulePack
规则包。
有两种方法可用于创建新的 SIT:
提示
如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。
开始之前
SKU/订阅和许可
在开始使用 DLP 策略之前,请确认 Microsoft 365 订阅 和任何加载项。
有关许可的信息,请参阅 Microsoft 365、Office 365、企业移动性 + 安全性 和 Windows 11 企业订阅。
重要
在创建自定义分类或正则表达式模式时,不可从 Microsoft 客户服务和支持获取帮助。 支持工程师可以为该功能提供有限的支持,例如,提供示例正则表达式模式以进行模拟,或帮助排查现有正则表达式模式未按预期触发的问题。 但是,他们无法保证任何自定义内容匹配开发将满足你的要求或义务。
从头开始创建自定义 SIT
注意
Microsoft Purview 支持创建使用双字节字符语言(如中文、日语和韩语)的自定义 SCT。 由于这些语言不像单字节语言那样使用分隔符,因此 Purview 在使用双字节字符的语言中的每个单词之间添加空格。 它还会删除特殊字符,例如标点符号。
使用以下过程完全定义全新的敏感信息类型。
为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
登录到 Microsoft Purview 门户。
在Microsoft Purview 合规门户中,导航到“信息保护>分类>”“敏感信息类型”,然后选择“创建敏感信息类型”。
填写“名称”和“说明” 的值,然后选择“下一步”。
选择“创建模式”。 在定义新的敏感信息类型时,可以创建多个模式,每个模式具有不同的元素和置信度。
选择模式的默认可信度。 这些值是“低可信度”、“中可信度”和“高可信度”。
选择并定义 Primary 元素。 主要元素可以是带有可选验证程序的正则表达式、关键字列表、关键字字典或预先配置的函数之一。 有关用于数据丢失防护的 SIT 函数的详细信息,请参阅 敏感信息类型函数。 有关日期和校验和验证程序的详细信息,请参阅 敏感信息类型正则表达式验证程序。
填写字符领近度的值。
(可选)添加支持元素(如有)。 支持元素可以是具有可选验证程序、关键字 (keyword) 列表、关键字 (keyword) 字典或预定义函数之一的正则表达式。 支持元素可以有自己的 字符邻近感应 配置。
(可选)从可用检查列表中添加任何 其他检查。
选择“创建”。
选择“下一步”。
为此敏感信息类型选择建议的可信度。
检查设置并选择 “保存”。
重要
Microsoft 365 使用搜索爬网程序来识别 SharePoint 和 OneDrive 网站中的敏感信息并对其进行分类。 要确定现有内容中新的自定义敏感信息类型,必须对该内容重新爬网。 根据计划对内容进行爬网,但你可手动重新爬网内容来查找网站集、列表或库。 有关详细信息,请参阅Manually request crawling and re-indexing of a site, a library or a list(手动请求对网站、库或列表进行爬网和重新编制索引)。
“分类器”页的“敏感信息类型”选项卡列出了所有敏感信息类型。 选择 “刷新” ,然后使用搜索工具或浏览列表以查找新的 SIT。
复制和修改现有 SIT
此过程说明如何使用 合规性门户复制和修改现有 SIT。
或者,可以使用 PowerShell 复制和修改自定义 SIT,并利用 Purview 的精确数据匹配 (EDM) 功能。 若要了解有关这些方法的详细信息,请参阅:
注意
无法复制这些 SCT:
- 加拿大驾照编号
- 欧盟驾照编号
- 欧盟国家标识号
- 欧盟护照编号
- 欧盟社会保险号或等效标识
- 欧盟税务标识号
- 国际疾病分类 (ICD-10-CM)
- 国际疾病分类 (ICD-9-CM)
- 美国驾照编号
使用 Microsoft Purview 或合规性门户复制和修改现有 SIT
为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
登录到 Microsoft Purview 门户。
>信息保护分类>敏感信息类型,然后选择要复制的敏感信息类型。
此时会打开敏感信息类型的概述页。 选择“复制”。 副本准备就绪后,将显示一条消息,指出副本已创建,其中包含用于编辑副本的选项。 选择“是”。
为新的敏感信息类型提供新“名称”和“描述”。
可以选择创建新模式,或者编辑或删除部分或全部现有模式。
- 若要创建新模式,请选择“ 创建”。
- 若要编辑现有模式,请选择要更改的模式旁边的 “编辑 (铅笔) 图标。
- 若要删除模式,请选择要删除的模式旁边的 “删除 ”图标。
创建或编辑模式时,请选择该模式的默认置信度级别。 这些值是“低可信度”、“中可信度”和“高可信度”。
选择并定义主要元素。 主元素可以是 正则表达式、 关键字列表、 关键字字典或预配置的 函数之一。 请参阅 敏感信息类型函数。
填写字符领近度的值。
(可选) 如果你有 支持元素 或想要运行 的任何其他检查 ,请添加它们。 如果需要,可以将 支持元素 组织到组中。
如果要创建新模式,请选择“ 创建”。 如果要编辑现有模式,请选择“ 更新”。
选择“下一步”。
确认此敏感信息类型的置信度级别选择,然后选择“ 下一步”。
查看设置,然后选择“ 保存”。
将创建新的敏感信息类型。 在确认消息中,选择“完成”
注意
Microsoft Purview 信息保护支持以下对象的双字节字符集语言:
- 简体中文
- 繁体中文
- 韩语
- 日语
此支持适用于敏感信息类型。 有关详细信息,请参阅双字节字符集的信息保护支持发行说明 (预览) 。
提示
若要检测包含中文/日语字符和单字节字符的模式,或者要检测包含中文/日语和英语的模式,请定义关键字 (keyword) 或正则表达式的两个变体。
- 例如,若要检测像“机密的文件”这样的关键词,则要使用该关键词的两个变体; 一个是在日语和英语文本之间有空格,另一个是在日语和英语文本之间没有空格。 因此,在 SIT 中要添加的关键词应该是“机密的 文档”和“机密的文档”。 同样,若要检测短语 "東京オリンピック2020",则应该使用两个变体;“東京オリンピック 2020”和“東京オリンピック2020”。
除了中文/日语/双字节字符,如果关键字/短语列表还包含非中文/日语单词 (,例如,仅英语) ,建议创建两个字典/关键字 (keyword) 列表。 为包含中文/日语/双字节字符的关键字创建一个,为仅英语创建另一个。
- 例如,如果要创建包含三个短语“高度机密”、“机器密性が高い”和“机密的文档”的关键字 (keyword) 字典/列表,则应创建两个关键字 (keyword) 列表。
- Highly confidential
- “機密性が高い”、“机密的document”和“机密的 document”
在使用双字节连字符或双字节句点创建正则表达式时,请确保以转义正则表达式中连字符或句点的相同方式转义这两个字符。 此处有一个示例的 regex 供参考:
(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4})
不应在关键字 (keyword) 中使用双字节特殊字符。
建议在关键词列表中使用字符串匹配而不是单词匹配。