自定义敏感信息类型筛选器参考

在 Microsoft Purview 中,可以在创建自定义敏感信息类型时定义筛选器或其他检查, (SIT) 。

提示

如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。

支持的筛选器和用例列表

AllDigitsSame Exclude

说明:允许排除所有数字为重复数字的匹配项,例如111111111或 111-111-111

定义筛选器:

<Filters id="ssn_filters">
    <Filter type="AllDigitsSameFilter"></Filter>
</Filters>

在实体级别的规则包中使用它:

<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85"  filters="ssn_filters">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="Func_ssn" />
      </Pattern>
</Entity>

在模式级别在规则包中使用它:

<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85"  filters="ssn_filters">
        <IdMatch idRef="Func_ssn" />
      </Pattern>
</Entity>

TextMatchFilter StartsWith

说明:允许定义实体的起始字符。 它有两个变体, 即 excludeinclude

例如,若要 排除 列表中以 0500、91、091、010 开头的数字,如下所示:

  • 0500-4500-027
  • 91564721450
  • 91-8523697410
  • 700-8956-7844
  • 1000-3265-9874
  • 0100-7892-3012

可以使用以下 XML:

<Filters id="phone_number_filters_exc">
    <Filter type="TextMatchFilter" direction="StartsWith" logic="Exclude" textProcessorId="Keyword_false_positives_sw">
</Filter>
</Filters>

  <Keyword id="Keyword_false_positives_sw">
    <Group matchStyle="string">
      <Term>0500</Term>
      <Term>91</Term>
      <Term>091</Term>
      <Term>0100</Term>
    </Group>
  </Keyword>

同样,若要在如下所示的列表中 包括 以 0500、91、091、0100 开头的数字:

  • 0500-4500-027
  • 91564721450
  • 91-8523697410
  • 700-8956-7844
  • 1000-3265-9874
  • 0100-7892-3012

可以使用以下 XML:

<Filters id="phone_filters_inc">
    <Filter type="TextMatchFilter" direction="StartsWith" logic="Include" textProcessorId="Keyword_false_positives_sw">
</Filter>

TextMatchFilter EndsWith

说明:用于定义实体的结束字符。

例如,若要在如下所示的列表中 排除 以 0500、91,091、0100 结尾的数字:

  • 1234567891
  • 1234-5678-0091
  • 1234.4567.7091
  • 1234-8091-4564

可以使用以下 XML:

<Filters id="phone_number_filters_exc">
    <Filter type="TextMatchFilter" direction="EndsWith" logic="Exclude" textProcessorId="Keyword_false_positives_sw">
</Filter>

  <Keyword id="Keyword_false_positives_sw">
    <Group matchStyle="string">
      <Term>0500</Term>
      <Term>91</Term>
      <Term>091</Term>
      <Term>0100</Term>
    </Group>
  </Keyword>

例如,若要将以 0500、91、091、0100 结尾的数字 包含在 如下所示的列表中:

  • 1234567891
  • 1234-5678-0091
  • 1234.4567.7091
  • 1234-8091-4564

可以使用以下 XML:

<Filters id="phone_filters_inc">
    <Filter type="TextMatchFilter" direction=" EndsWith" logic="Include" textProcessorId="Keyword_false_positives_sw">
</Filter>

TextMatchFilter Full

说明:允许禁止某些匹配项以阻止它们触发规则,例如将4111111111111111从有效信用卡匹配项列表中排除。

例如,若要在如下所示的列表中排除信用卡数字(如4111111111111111和3241891031113111):

  • 4485 3647 3952 7352
  • 4111111111111111
  • 3241891031113111

可以使用以下 XML:

<Filters id="cc_number_filters_exc">
    <Filter type="TextMatchFilter" direction="Full" logic="Exclude" textProcessorId="Keyword_false_positives_full">
</Filter>

  <Keyword id="Keyword_false_positives_full">
    <Group matchStyle="string">
      <Term>4111111111111111</Term>
      <Term>3241891031113111</Term>
    </Group>
  </Keyword>

同样,若要在如下所示的列表中包括信用卡数字(如4111111111111111和3241891031113111):

  • 4485 3647 3952 7352
  • 4111111111111111
  • 3241891031113111

可以使用以下 XML:

<Filters id="cc_filters_inc">
    <Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_false_positives_full">
</Filter>

TextMatchFilter 前缀

说明:允许定义应始终排除或包含的上述字符。 例如,如果信用卡编号前面有“订单 ID:”,则从有效匹配项中删除匹配项。

例如,若要 排除包含电话号码 的电话号码,并在电话号码前 的字符串中呼叫我 ,请在如下所示的列表中:

  • 电话号码 091-8974-653278
  • 电话 45-124576532-123
  • 45-124576532-123

可以使用以下 XML:

<Filters id="cc_number_filters_exc">
    <Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Keyword_false_positives_prefix">
</Filter>
  <Keyword id="Keyword_false_positives_prefix">
    <Group matchStyle="string">
      <Term>phone number</Term>
      <Term>call me at</Term>
    </Group>
  </Keyword>

同样,若要在信用卡数字之前包括具有信用卡卡 # 字符串的匹配项,请在如下所示的列表中包括:

  • 信用卡 45-124576532-123
  • 45-124576532-123 (可能是电话号码)

可以使用以下 XML:

<Filters id="cc_filters_inc">
    <Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_true_positives_prefix">
</Filter>

  <Keyword id="Keyword_true_positives_prefix">
    <Group matchStyle="string">
      <Term>credit card</Term>
      <Term>card #</Term>
    </Group>
  </Keyword

TextMatchFilter 后缀

说明:允许定义应始终排除或包含的以下字符。 例如,如果信用卡编号后跟“/xuid”,则从有效匹配项中删除匹配项。

例如,如果列表中还有 5 个 4 位数字的实例作为后缀,则 top 排除出现次数,如下所示:

  • 1234-5678-9321 4500 9870 6321 48925566
  • 1234-5678-9321

可以使用以下 XML:

<Filters id="cc_number_filters_exc">
    <Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Regex_false_positives_suffix">
</Filter>

  <Regexid="Regex_false_positives_suffix">(\d{4}){5,}</Regex>

如果匹配项后跟 /xuidsuffix,则还可以排除这些事件,如此列表中的匹配项:

  • 1234-5678-9321 /xuid
  • 1234-5678-9321

可以使用此 XML:

<Filters id="cc_number_filters_exc">
    <Filter type="TextMatchFilter" direction="Prefix" logic="Exclude" textProcessorId="Keyword_false_positives_suffix">
</Filter>

  <Keyword id="Keyword_false_positives_suffix">
    <Group matchStyle="string">
      <Term>/xuid</Term>
    </Group>
  </Keyword>

同样,仅当匹配项后跟 cvv过期时,才包含匹配项,例如此列表中的两个匹配项:

  • 45-124576532-123
  • 45-124576532-123 cvv 966
  • 45-124576532-123 过期 03/23

可以使用此 XML:

<Filters id="cc_filters_inc">
    <Filter type="TextMatchFilter" direction="Full" logic="Include" textProcessorId="Keyword_true_positives_suffix">
</Filter>

  <Keyword id="Keyword_true_positives_suffix">
    <Group matchStyle="string">
      <Term>cvv</Term>
      <Term>expires</Term>
    </Group>
  </Keyword>

在规则包中使用筛选器

可以在整个 SIT 或模式上定义筛选器。 下面是一些示例。

敏感信息类型级别

实体中的筛选器 - 将涵盖所有子模式

筛选器将应用于按该实体/敏感信息类型中的任何模式分类 的所有 实例。

<Entity id="6443b88f-2808-482a-8e1a-3ae5026645e1" patternsProximity="300" recommendedConfidence="85" filters="CompositeFiltersAtEntityLevel">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="Regex_denmark_id" />
      </Pattern>
</Entity>

在敏感信息类型级别的单个模式

仅在模式级别筛选。

筛选器将仅应用于模式匹配的实例。

<Entity id="50842eb7-edc8-4019-85dd-5a5c1f2bb085" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85"  filters="CompositeFiltersAtPattern">
        <IdMatch idRef="Keyword_cc_verification" />
      </Pattern>
</Entity>

在敏感信息类型级别,包含针对该实体的某些模式的附加筛选器

实体 + 模式处的筛选器

筛选器将应用于按该实体/敏感信息类型中的任何模式分类 的所有 实例。 模式级别筛选器将筛选该模式匹配的实例。

<Entity id="6443b88f-2808-482a-8e1a-3ae5026645e1" patternsProximity="300" recommendedConfidence="85" filters="CompositeFiltersAtEntityLevel">
      <Pattern confidenceLevel="85" filters="CompositeFiltersAtPattern">
        <IdMatch idRef="Regex_denmark_id" />
      </Pattern>
</Entity>

更多信息