敏感信息类型 REGEX 验证程序和其他检查

重要

在创建自定义分类或正则表达式模式时,不可从 Microsoft 客户服务和支持获取帮助。 支持工程师可以为该功能提供有限的支持,例如提供用于测试该功能的示例正则表达式模式,或协助排查未按预期触发的现有正则表达式模式。 但是,支持工程师无法向你保证任何自定义内容匹配开发都能满足你的要求或义务。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

敏感信息类型正则表达式验证程序

校验和验证程序

若要对正则表达式中的数字运行校验和,可以使用 校验和验证器。 例如,如果需要为 8 位数的许可证编号创建 SIT,其中最后一位数字是使用 mod 9 计算验证的校验和数字,请设置校验和算法,如下所示:

Sum = digit 1 * Weight 1 + digit 2 * weight 2 + digit 3 * weight 3 + digit 4 * weight 4 + digit 5 * weight 5 + digit 6 * weight 6 + digit 7 * weight 7 + digit 8 * weight 8
Mod value = Sum % 9
If Mod value == digit 8
    Account number is valid
If Mod value != digit 8
    Account number is invalid
  1. 使用以下正则表达式定义主元素:

    \d{8}
    
  2. 添加校验和验证程序。

  3. 添加用逗号分隔的权重值、检查位数的位置和 mod 值。 有关 Modulo 操作的详细信息,请参阅 Modulo 操作

    注意

    如果检查位不是校验和计算的一部分,请使用 0 作为检查位数的权重。 例如,在上一情况下,如果检查位数不用于计算检查位数,则权重 8 将等于 0。

    配置的校验和验证器的屏幕截图。

日期验证程序

如果正则表达式中嵌入的日期值是要创建的新模式的一部分,则可以使用 日期验证程序 来测试该日期值是否符合条件。 例如,你想要为 9 位员工标识号创建 SIT。 前六位数字是 DDMMYY 格式的受雇日期,最后三位数字是随机生成的数字。 执行以下步骤,验证前六位数字的格式是否正确:

  1. 使用以下正则表达式定义主元素:

    \d{9}
    
  2. 添加日期验证程序。

  3. 选择日期格式和开始偏移量。 由于日期字符串是前六位数字,因此偏移量为 0

    配置的日期验证器的屏幕截图。

将功能处理器作为验证程序

可以将函数处理器用于某些最常用的 SCT 作为验证程序。 使用函数处理器可以定义自己的正则表达式,同时确保它们通过 SIT 所需的其他检查。 例如,Func_India_Aadhar可确保定义的自定义正则表达式通过印度 Aadhar 卡所需的验证逻辑。 有关可以用作验证器的 DLP 函数的详细信息,请参阅 敏感信息类型函数

Luhn 检查 验证程序

如果有包含正则表达式的自定义敏感信息类型(应通过 Luhn 算法),则可以使用 Luhn 检查验证程序。

敏感信息类型附加检查

以下是可用的其他检查的定义和一些示例。

排除特定匹配项:此检查允许在检测正在编辑的模式的匹配项时定义要排除的关键字。 例如,你可能排除测试信用卡号(如 4111111111111111),以便其不会作为有效号码进行匹配。

以或不以字符开头:此检查允许定义字符,匹配项必须或禁止以其开头。 例如,如果希望模式仅检测以 41、42 或 43 开头的信用卡号码,请选择“开头为”,然后向列表中添加 41、42 和 43,并以逗号分隔。

以或不以字符结尾:此检查允许定义字符,匹配项必须或禁止以其结尾。 例如,如果员工 ID 号不能以 0 或 1 结尾,请选择“结尾不可为”,然后向列表添加 0 和 1,并用逗号分隔。

排除重复字符:此检查允许忽略所有数字都相同的匹配项。 例如,如果六位数员工 ID 号码不能都是相同数字,可以选择“排除重复字符”,以从员工 ID 的有效匹配列表中排除 111111、222222、333333、444444、555555、666666、777777、888888、999999 和 000000。

包括或排除前缀:此检查可定义在匹配实体之前必须或不得立即找到的关键字。 如果实体前面带有此处包含的前缀,则这些实体将匹配或不匹配,具体取决于你的选择。 例如,如果 排除 前缀 GUID:,则前面为 GUID: 的任何实体都不匹配。

包括或排除后缀 此检查可定义在匹配实体之后必须或不得立即找到的关键字。 根据所选内容,如果实体后跟此处包含的后缀,则实体将匹配或不匹配。 例如,如果 排除 后缀 :GUID,则后跟 :GUID 的任何文本都不匹配。