自定义敏感信息类型筛选器参考
在 Microsoft Purview 中,可以在创建自定义敏感信息类型时定义筛选器或其他检查, (SIT) 。
提示
如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。
说明:允许排除所有数字为重复数字的匹配项,例如111111111或 111-111-111
定义筛选器:
<Filters id="ssn_filters">
<Filter type="AllDigitsSameFilter"></Filter>
</Filters>
在实体级别的规则包中使用它:
<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85" filters="ssn_filters">
<Pattern confidenceLevel="85">
<IdMatch idRef="Func_ssn" />
</Pattern>
</Entity>
在模式级别在规则包中使用它:
<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85">
<Pattern confidenceLevel="85" filters="ssn_filters">
<IdMatch idRef="Func_ssn" />
</Pattern>
</Entity>
说明:允许定义实体的起始字符。 它有两个变体, 即 exclude 和 include。
例如,若要 排除 列表中以 0500、91、091、010 开头的数字,如下所示:
- 0500-4500-027
- 91564721450
- 91-8523697410
- 700-8956-7844
- 1000-3265-9874
- 0100-7892-3012
可以使用以下 XML:
<Filters id="phone_number_filters_exc">
<Filter type="TextMatchFilter" direction="StartsWith" logic="Exclude" textProcessorId="Keyword_false_positives_sw">
</Filter>
</Filters>
<Keyword id="Keyword_false_positives_sw">
<Group matchStyle="string">
<Term>0500</Term>
<Term>91</Term>
<Term>091</Term>
<Term>0100</Term>
</Group>
</Keyword>
同样,若要在如下所示的列表中 包括 以 0500、91、091、0100 开头的数字:
- 0500-4500-027
- 91564721450
- 91-8523697410
- 700-8956-7844
- 1000-3265-9874
- 0100-7892-3012
可以使用以下 XML:
<Filters id="phone_filters_inc">
<Filter type="TextMatchFilter" direction="StartsWith" logic="Include" textProcessorId="Keyword_false_positives_sw">
</Filter>
说明:用于定义实体的结束字符。
例如,若要在如下所示的列表中 排除 以 0500、91,091、0100 结尾的数字:
- 1234567891
- 1234-5678-0091
- 1234.4567.7091
- 1234-8091-4564
可以使用以下 XML:
<Filters id="phone_number_filters_exc">
<Filter type="TextMatchFilter" direction="EndsWith" logic="Exclude" textProcessorId="Keyword_false_positives_sw">
</Filter>
<Keyword id="Keyword_false_positives_sw">
<Group matchStyle="string">
<Term>0500</Term>
<Term>91</Term>
<Term>091</Term>
<Term>0100</Term>
</Group>
</Keyword>
例如,若要将以 0500、91、091、0100 结尾的数字 包含在 如下所示的列表中:
- 1234567891
- 1234-5678-0091
- 1234.4567.7091
- 1234-8091-4564
可以使用以下 XML:
<Filters id="phone_filters_inc">
<Filter type="TextMatchFilter" direction=" EndsWith" logic="Include" textProcessorId="Keyword_false_positives_sw">
</Filter>
说明:允许禁止某些匹配项以阻止它们触发规则,例如将4111111111111111从有效信用卡匹配项列表中排除。
例如,若要在如下所示的列表中排除信用卡数字(如4111111111111111和3241891031113111):
- 4485 3647 3952 7352
- 4111111111111111
- 3241891031113111
可以使用以下 XML:
<Filters id="cc_number_filters_exc">
<Filter type="TextMatchFilter" direction="Full" logic="Exclude" textProcessorId="Keyword_false_positives_full">
</Filter>
<Keyword id="Keyword_false_positives_full">
<Group matchStyle="string">
<Term>4111111111111111</Term>
<Term>3241891031113111</Term>
</Group>
</Keyword>
同样,若要在如下所示的列表中包括信用卡数字(如4111111111111111和3241891031113111):
- 4485 3647 3952 7352
- 4111111111111111
- 3241891031113111
可以使用以下 XML:
<Filters id="cc_filters_inc">
<Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_false_positives_full">
</Filter>
说明:允许定义应始终排除或包含的上述字符。 例如,如果信用卡编号前面有“订单 ID:”,则从有效匹配项中删除匹配项。
例如,若要 排除包含电话号码 的电话号码,并在电话号码前 的字符串中呼叫我 ,请在如下所示的列表中:
- 电话号码 091-8974-653278
- 电话 45-124576532-123
- 45-124576532-123
可以使用以下 XML:
<Filters id="cc_number_filters_exc">
<Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Keyword_false_positives_prefix">
</Filter>
<Keyword id="Keyword_false_positives_prefix">
<Group matchStyle="string">
<Term>phone number</Term>
<Term>call me at</Term>
</Group>
</Keyword>
同样,若要在信用卡数字之前包括具有信用卡和卡 # 字符串的匹配项,请在如下所示的列表中包括:
- 信用卡 45-124576532-123
- 45-124576532-123 (可能是电话号码)
可以使用以下 XML:
<Filters id="cc_filters_inc">
<Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_true_positives_prefix">
</Filter>
<Keyword id="Keyword_true_positives_prefix">
<Group matchStyle="string">
<Term>credit card</Term>
<Term>card #</Term>
</Group>
</Keyword
说明:允许定义应始终排除或包含的以下字符。 例如,如果信用卡编号后跟“/xuid”,则从有效匹配项中删除匹配项。
例如,如果列表中还有 5 个 4 位数字的实例作为后缀,则 top 排除出现次数,如下所示:
- 1234-5678-9321 4500 9870 6321 48925566
- 1234-5678-9321
可以使用以下 XML:
<Filters id="cc_number_filters_exc">
<Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Regex_false_positives_suffix">
</Filter>
<Regexid="Regex_false_positives_suffix">(\d{4}){5,}</Regex>
如果匹配项后跟 /xuidsuffix,则还可以排除这些事件,如此列表中的匹配项:
- 1234-5678-9321 /xuid
- 1234-5678-9321
可以使用此 XML:
<Filters id="cc_number_filters_exc">
<Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Keyword_false_positives_suffix">
</Filter>
<Keyword id="Keyword_false_positives_suffix">
<Group matchStyle="string">
<Term>/xuid</Term>
</Group>
</Keyword>
同样,仅当匹配项后跟 cvv 或 过期时,才包含匹配项,例如此列表中的两个匹配项:
- 45-124576532-123
- 45-124576532-123 cvv 966
- 45-124576532-123 过期 03/23
可以使用此 XML:
<Filters id="cc_filters_inc">
<Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_true_positives_suffix">
</Filter>
<Keyword id="Keyword_true_positives_suffix">
<Group matchStyle="string">
<Term>cvv</Term>
<Term>expires</Term>
</Group>
</Keyword>
可以在整个 SIT 或模式上定义筛选器。 下面是一些示例。
实体中的筛选器 - 将涵盖所有子模式
筛选器将应用于按该实体/敏感信息类型中的任何模式分类 的所有 实例。
<Entity id="6443b88f-2808-482a-8e1a-3ae5026645e1" patternsProximity="300" recommendedConfidence="85" filters="CompositeFiltersAtEntityLevel">
<Pattern confidenceLevel="85">
<IdMatch idRef="Regex_denmark_id" />
</Pattern>
</Entity>
仅在模式级别筛选。
筛选器将仅应用于模式匹配的实例。
<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85">
<Pattern confidenceLevel="85" filters="CompositeFiltersAtPattern">
<IdMatch idRef="Keyword_cc_verification" />
</Pattern>
</Entity>
实体 + 模式处的筛选器
筛选器将应用于按该实体/敏感信息类型中的任何模式分类 的所有 实例。 模式级别筛选器将筛选该模式匹配的实例。
<Entity id="6443b88f-2808-482a-8e1a-3ae5026645e1" patternsProximity="300" recommendedConfidence="85" filters="CompositeFiltersAtEntityLevel">
<Pattern confidenceLevel="85" filters="CompositeFiltersAtPattern">
<IdMatch idRef="Regex_denmark_id" />
</Pattern>
</Entity>