创建基于精确数据匹配的敏感信息类型/规则包

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

适用对象

可以使用 Microsoft Purview 合规性门户中的 “使用精确数据匹配架构和 SIT 模式”工具 创建精确数据匹配 (EDM) SIT (SIT) ,也可以 手动创建规则包 作为 XML 文件。 还可以组合这两种方法,方法是使用一个方法来创建架构,然后使用另一个方法来编辑架构。

如果不熟悉基于 EDM 的 SITS 或其实现,则应熟悉:

先决条件

执行以下文章中的步骤:

  1. 导出基于完全数据匹配的敏感信息类型的源数据
  2. 为基于精确数据匹配的敏感信息类型创建架构
  3. 为基于精确数据匹配的敏感信息类型哈希并上传敏感信息源表
  • 无论是使用工具还是通过 PowerShell 的规则包 XML 文件创建 EDM SIT,都必须具有全局管理员或合规性管理员权限才能通过 UI 创建、测试和部署自定义 SIT。 请参阅关于Office 365中的管理员角色
  • 确定要用作主要元素 SIT 的内置 SIT 之一。
    • 如果内置 SIT 均与所选列中的数据不匹配,则必须创建自定义 SIT。
    • 如果为架构中的主元素列选择了“忽略分隔符”选项,请确保创建的自定义 SIT 将匹配包含和不使用所选分隔符的数据。
    • 如果使用内置 SIT,请确保它将准确检测要选择的字符串,并且不包含任何周围的字符或排除存储在敏感信息表中的字符串的任何有效部分。

请参阅 敏感信息类型实体定义创建自定义敏感信息类型

使用精确数据匹配架构和 SIT 模式工具

可以使用此工具创建 SIT 文件,以帮助简化该过程。

EDM SIT 由一个或多个模式组成。 每种模式描述架构中的字段组合,这些字段将用于标识文档或电子邮件中的敏感内容 (证据) 。

为正在使用的门户选择相应的选项卡。 若要了解有关 Microsoft Purview 门户的详细信息,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 登录到 Microsoft Purview 门户>信息保护>Classifiers>EDM 分类器

    1. “新建 EDM 体验 ”切换开关设置为 “关闭”
  2. 选择 “EDM 敏感信息类型 ”和 “创建 EDM 敏感信息类型 ”以打开“敏感信息类型”配置工具。

  3. 选择“ 选择现有 EDM 架构 ”,并选择在 创建基于完全数据匹配的敏感信息类型的架构中创建的架构。 选择“添加”。

  4. 选择 下一步,然后选择 创建模式

  5. 选择 “置信度”“主要”元素。 若要了解有关置信度的详细信息,请参阅 了解敏感信息类型

  6. 选择 Primary 元素的敏感信息类型 以将其关联,以定义文档中的哪些文本将与主元素字段中的所有值进行比较。 请参阅 SIT 实体定义 ,详细了解可用的敏感信息类型。

    重要

    选择与要查找的内容的格式匹配的 SIT。 选择与不必要的内容匹配的 SIT(例如,匹配 所有 文本字符串或 所有 数字的 SIT),可能会导致系统中的负载过大,从而导致敏感信息保持未检测到。

  7. 选择 支持元素 和匹配选项。

  8. 选择“完成”

  9. 如果要为 EDM SIT 创建其他模式,请选择“ 创建 模式”。

  10. 选择“下一步”。

  11. 选择所需的 “建议置信度”“字符邻近度”。 这是整个 EDM SIT 的默认值。 (有关字符邻近度的信息,请参阅 了解邻近感应) 。 选择“下一步”。

  12. 选择 下一步 并填写 名称面向管理员的说明

    创建架构文件时,列标题 (数据字段) 必须遵守以下命名要求:
    - 必须以字母开头,并且必须至少包含三个字母数字字符。
    - 必须仅包含字母数字字符。

  13. 查看并选择 提交

编辑或删除 SIT 模式

为正在使用的门户选择相应的选项卡。 若要了解有关 Microsoft Purview 门户的详细信息,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 登录到 Microsoft Purview 门户>信息保护>Classifiers>EDM 分类器

    1. “新建 EDM 体验 ”切换开关设置为 “关闭”
  2. 选择 EDM 敏感信息类型

  3. 选择要编辑的 EDM SIT。

  4. 从浮出控件中选择“编辑 EDM 敏感信息类型”或“删除 EDM 敏感信息类型”。

  5. 有关编辑过程,请参阅 使用精确数据匹配架构和 SIT 模式工具

使用特定类型的数据

出于性能原因,使用能够最大程度地减少不必要的匹配次数的模式至关重要。 例如,可以使用基于正则表达式的 SIT。

\b\w*\b

这将匹配任何文档或电子邮件中的每个单词或数字。 这会导致服务因匹配项和未命中检测真实匹配而过载。 使用更精确的模式可以避免这种情况。 下面是一些建议,用于确定某些常见数据类型的正确配置。

Email地址:Email地址可能易于识别,但由于这些地址在敏感内容中很常见,因此,如果用作主字段,则可能会导致系统中出现大量负载。 仅使用电子邮件添加器作为辅助证据。 如果它们必须用作主要证据,则当你定义自定义 SIT 时,请使用逻辑来排除电子邮件地址用作 From 电子邮件中的 或 To 字段的项目。 此外,使用逻辑从公司域中排除电子邮件地址,以减少需要匹配的不必要的字符串数。

电话号码:电话号码可以有多种不同的格式,包括或排除国家/地区前缀、区号和分隔符。 若要在将负载保持在最小限度的同时减少假负数,请仅将它们用作次要元素,排除所有可能分隔符(如括号和短划线),并仅将始终出现在电话号码中的部分包含在敏感数据表中。

人员名称:如果使用基于正则表达式的 SIT 作为此 EDM 类型的分类元素,则不要将人员名称用作主要元素,因为它们很难与常用字词区分开来。

如果必须使用难以识别特定模式的主元素 ((例如项目代码名称) ),这可能生成大量要处理的匹配项,请确保在 SIT 中包含关键字,用作 EDM 类型的分类元素。 例如,如果使用也是常规字词的项目代码名称,则可以在与用作 EDM 类型的分类元素的 SIT 中基于正则表达式的项目名称模式非常接近时,将单词 project 用作所需附加证据。 或者,可以考虑使用基于常规字典的 SIT 作为 EDM SIT 的分类元素。

尝试匹配数字字符串时,请指定允许的数字范围,例如位数或起始数字(如果已知)。 如果需要匹配相对灵活的数字范围,可以使用基准 SIT 中的关键字来减少匹配数。 例如,如果尝试匹配包含 7-11 位数字的帐号,请将单词 accountcustomeracct. 、 添加到 SIT 中作为所需的附加证据。 这可以减少不必要的匹配的可能性,这些匹配可能导致超出可处理的 EDM 匹配的限制。

如果需要用作主元素的字段遵循可能导致大量匹配的简单模式,并且不能在 SIT 中添加关键字作为附加证据,则可以要求该模式的最小出现次数。 例如,可以使用按以下方式定义的自定义 SIT 来检测与敏感内容中匹配的潜在五位数数字周围的至少 29 个其他五位数数字:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

在某些情况下,你可能必须标识某些帐户或记录标识号,这些帐户或记录标识号由于历史原因不遵循标准化模式。 例如, Medical Record Numbers 可以由同一组织中许多不同的字母和数字排列组成。 尽管一开始可能很难识别模式,但更仔细的检查通常允许缩小描述所有有效值的模式的范围,而不会导致过多的无效匹配。 例如,可能会检测到“所有 MRN 的长度至少为 7 个字符,其中至少有两个数字数字,如果其中有任何字母,则以 1 开头”。 基于此类条件创建正则表达式应允许在捕获所有所需值时最大程度地减少不必要的匹配,进一步分析可能会通过定义描述不同格式的单独模式来提高精度。

手动创建规则包

此过程演示如何使用 Unicode 编码) 创建一个名为规则包 (的 XML 格式的文件,然后使用安全性 & 合规性 PowerShell cmdlet 将其上传到 Microsoft Purview。

注意

如果映射到的 SIT 可以检测多字确证证据,则可以将手动创建的规则包中定义的辅助元素映射到 SIT。 例如,如果该确证证据字段未映射到可以检测该模式的 SIT,则名称John Smith不会作为辅助元素进行匹配,因为我们会将内容中的内容与其中一个字段中上传的术语John Smith单独进行比较JohnSmith查找。

Microsoft 365 租户中的规则包限制为 10 个。 由于规则包可以包含任意数量的敏感信息类型,因此每次要使用此方法定义新 SIT 时,可以避免创建新的规则包,而是导出现有规则包,并在重新上传之前将敏感信息类型添加到 XML。

  1. 按 XML 格式创建一个规则包(采用 Unicode 编码),如下例类似。 (可复制、修改和使用我们的示例。)

    设置规则包时,请确保正确引用 .csv、.tsv 或管道 (|) 带分隔符的敏感信息源表文件和 edm.xml 架构文件。 可复制、修改和使用我们的示例。 在此示例 xml 中,需要自定义以下字段以创建 EDM 敏感类型:

    • RulePack id & ExactMatch id:使用 New-GUID 生成 GUID。

    • 数据存储:此字段指定要使用的 EDM 查找数据存储。 提供配置的 EDM 架构的数据源名称。

    • idMatch:此字段指向 EDM 的主要元素。

    • 匹配:指定要在精确查找中使用的字段。 在数据存储的 EDM 架构中提供可搜索的字段名称。

    • 分类:此字段指定触发 EDM 查找的 SIT 匹配项。 可以使用现有内置或自定义 SIT 的名称或 GUID。

    注意

    请注意,与所提供的 SIT 匹配的任何字符串都将经过哈希处理,并将其与敏感信息源表中的每个条目进行比较。 为避免在为分类元素选择自定义 SIT 时出现性能问题,请勿使用与大部分内容匹配的。 例如,匹配“任意数字”或“任意五字母单词”的。 可以通过添加支持关键字或在自定义分类 SIT 的定义中包含格式来区分它。

    • 匹配:此字段指向在 idMatch 附近找到的其他证据。

    • 匹配:在 DataStore 的 EDM 架构中提供任何字段名称。

    • 资源 idRef: 本部分指定多个区域设置中敏感类型的名称和说明

      • 为 ExactMatch ID 提供 GUID。
      • 名称 & 说明:根据需要自定义。
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. 通过运行以下 PowerShell 命令上传规则包:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

注意

规则包文件的语法与其他敏感信息类型的语法相同。 有关规则包文件的语法和其他配置选项的完整详细信息,以及有关使用 PowerShell 修改和删除敏感信息类型的说明, 请使用 PowerShell 创建自定义 SIT

后续步骤