了解敏感信息类型

识别和分类组织控制下的敏感项目是信息保护规则中的第一步。 Microsoft Purview 提供三种识别项的方法,以便对项目进行分类:

  • 由用户手动完成
  • 自动化模式识别,如敏感信息类型
  • 机器学习

SIT) (敏感信息类型是基于模式的分类器。 他们检测到诸如社会保障、信用卡或银行帐号等敏感信息以识别敏感项目,请参阅 敏感信息类型实体定义 ,了解所有 SIT 的完整列表。

Microsoft 提供大量预配置的 SIT,也可以创建自己的 SIT。

提示

如果你不是 E5 客户,可以免费尝试 Microsoft Purview 中的所有高级功能。 使用为期 90 天的 Purview 解决方案试用版,探索可靠的 Purview 功能如何帮助组织管理数据安全和合规性需求。 现在从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息

敏感信息类型用于

敏感信息类型的类别

内置敏感信息类型

默认情况下,这些 SIT 由 Microsoft 创建,显示在合规性控制台中。 不能编辑这些 SIT,但可以将其用作模板并复制以创建自定义敏感信息类型。 请参阅所有 SIT 的完整列表的 敏感信息类型实体定义

命名实体敏感信息类型

默认情况下,命名实体 SIT 也会显示在合规性控制台中。 它们检测人员姓名、身体地址以及医疗条款和条件。 无法编辑或复制它们。 有关详细信息,请参阅, 了解命名实体 。 命名实体 SIT 有两种类型:

未捆绑

这些命名实体 SIT 具有更窄的焦点,例如单个国家/地区或单个术语类。 如果需要具有较窄检测范围的 DLP 策略,请使用这些策略。 请参阅 命名实体 SIT 的示例

捆绑

捆绑的命名实体 SIT 检测类中所有可能的匹配项,例如所有物理地址。 在 DLP 策略中将它们用作用于检测敏感项的广泛条件。 请参阅 命名实体 SIT 的示例

自定义敏感信息类型

如果预配置的敏感信息类型不能满足你的需求,可以创建你完全定义的自定义敏感信息类型,也可以复制其中一个内置信息类型并对其进行修改。 有关详细信息,请参阅: 在合规中心创建自定义敏感信息类型

精确数据与敏感信息类型匹配

所有基于 EDM 的 SIT 都是从头开始创建的。 可以使用它们来检测具有在敏感信息数据库中定义的确切值的项。 有关详细信息,请参阅, 了解基于数据匹配的敏感信息类型

敏感信息类型的基本部分

每个敏感信息类型实体都由以下字段定义:

  • 名称:如何引用敏感信息类型
  • 说明:描述敏感信息类型要查找的内容
  • 模式:模式定义敏感信息类型检测到的内容。 它由以下组件组成。
    • 主元素 – 敏感信息类型要查找的主要元素。 它可以是具有或不带校验和验证、关键字列表关键字字典数的正则表达式。
    • 支持元素 - 作为支持证据的元素,有助于提高匹配的信心。 例如,靠近 SSN 编号的关键字“SSN”。 它可以是具有或不带校验和验证、关键字列表、关键字字典的正则表达式。
    • 置信度 - 置信度级别 (高、中、低) 反映检测到多少支持证据以及主要元素。 项目包含的支持证据越多,匹配项所包含的敏感信息的置信度就越高。
    • 邻近 - 主要元素和支持元素之间的字符数。

佐证证据和邻近窗口的关系图。

在此简短视频中详细了解置信度。

敏感信息类型的示例

阿根廷国家/地区身份证 (DNI) 号

格式

八个数字,用点分隔

模式

八个数字:

  • 两位数
  • 一个句点
  • 三位数
  • 一个句点
  • 三位数

校验和

定义

DLP 策略在接近 300 个字符的情况下检测到此类敏感信息的置信度为中等:

  • 正则表达式 Regex_argentina_national_id 找到与该模式匹配的内容。
  • 找到 Keyword_argentina_national_id 中的一个关键字。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

关键字

Keyword_argentina_national_id

  • Argentina National Identity number
  • 标识
  • 标识国家标识卡
  • DNI
  • NIC 国家人员注册表
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

有关置信度级别的详细信息

在敏感信息类型实体定义中, 置信度反映了 除了主元素之外检测到的支持证据量。 项目包含的支持证据越多,匹配项所包含的敏感信息的置信度就越高。 例如,具有高置信度匹配项将包含与主要元素非常接近的更多支持证据,而置信度较低的匹配项在接近时几乎不包含任何支持证据。

高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度级别返回更多的误报,但误报数很少到零。

  • 低置信度:匹配项将包含最少的误报,但误报最多。 低置信度返回所有低、中、高置信度匹配项。 低置信度值为 65。
  • 中等置信度:匹配项将包含平均误报和误报量。 中等置信度返回所有中等和高置信度匹配项。 中等置信度值为 75。
  • 高置信度:匹配的项目将包含最少的误报,但最假的负数。 高置信度仅返回高置信度匹配项,值为 85。

你应该使用高置信度模式与低计数,比如5到10,低置信度模式与较高的计数,说20或更多。

注意

如果现有策略或自定义敏感信息类型 (使用基于数字的置信度级别定义的 SIT) (也称为准确性) ,则它们将自动映射到三个离散置信度级别:安全性 @ 合规中心 UI 中的低置信度、中等置信度和高置信度。

  • 具有最低准确度或自定义 SIT 模式且置信度级别在 76 到 100 之间的所有策略都将映射到高置信度。
  • 具有最低准确度或自定义 SIT 模式且置信度级别介于 66 和 75 之间的所有策略都将映射到中等置信度。
  • 具有最低准确性或自定义 SIT 模式(置信度低于或等于 65)的所有策略都将映射到低置信度。

创建自定义敏感信息类型

你可以从多个选项中进行选择,以便在合规中心创建自定义敏感信息类型。

  • 使用 UI - 可以使用合规中心 UI 设置自定义敏感信息类型。 通过此方法,你可以使用正则表达式、关键字和关键字字典。 若要了解详细信息,请参阅创建自定义敏感信息类型

  • 使用 EDM - 可以使用基于 EDM 的精确数据匹配 (基于 EDM 的分类) 设置自定义敏感信息类型。 通过此方法,你可以使用可定期刷新的安全数据库创建动态敏感信息类型。 请参阅 了解基于数据匹配的敏感信息类型

  • 使用 PowerShell - 可以使用 PowerShell 设置自定义敏感信息类型。 尽管此方法比使用 UI 更复杂,但你可以拥有更多的配置选项。 请参阅 在安全 & 合规性 PowerShell 中创建自定义敏感信息类型

注意

Microsoft Purview 数据丢失防护服务、信息保护、通信合规性、数据生命周期管理和记录管理中可立即使用改进的置信度级别。 信息保护现在支持双字节字符集语言:

  • 简体中文
  • 繁体中文
  • 韩语
  • 日语

此支持适用于敏感信息类型。 有关详细信息,请参阅 对双字节字符集发行说明的信息保护支持

提示

若要检测含有中文/日文字符和单字节字符的模式,或检测含有中文/日文和英文的模式,则需要定义两个变体的关键词或词组。

  • 例如,若要检测像“机密的文件”这样的关键词,则要使用该关键词的两个变体; 一个是在日语和英语文本之间有空格,另一个是在日语和英语文本之间没有空格。 因此,在 SIT 中要添加的关键词应该是“机密的 文档”和“机密的文档”。 同样,若要检测短语 "東京オリンピック2020",则应该使用两个变体;“東京オリンピック 2020”和“東京オリンピック2020”。

除了中文/日语/双字节字符,如果关键字/短语列表中还包含非中文/日语单词, (仅) 英语,则应创建两个字典/关键字列表。 一个针对包含中文/日语/双字节字符的关键字,另一个针对仅含英语的关键字。

  • 例如,如果要创建包含三个短语“高度机密”、“機密钥が高い”和“机密文档”的关键字词典/列表,则应创建两个关键字列表。
    1. Highly confidential
    2. “機密性が高い”、“机密的document”和“机密的 document”

当使用双字节连字符或双字节句号创建 regex 时,请确保像在 regex 中转义连字符或句号一样转义这两个字符。 此处有一个示例的 regex 供参考:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

建议在关键字列表中使用字符串匹配而不是字词匹配。

在敏感信息类型中提供匹配/不匹配准确性反馈

可以在 敏感信息类型内容资源管理器中查看 SIT 的匹配数。 还可以提供反馈,了解项目是否实际上是匹配项,而不是匹配反馈机制,并使用该反馈来优化 SIT。 有关详细信息,请参阅 (预览) 提高分类器准确性

有关详细信息

若要了解如何使用敏感信息类型来遵守数据隐私法规,请 参阅使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署数据隐私法规的信息保护