创建关键字字典

2025-04-01

Microsoft Purview 可以识别、监视和保护敏感项。标识敏感项目有时需要查找关键字，尤其是在标识常规内容（如与医疗保健相关的通信）或不当或露骨语言时。尽管可以在创建自定义敏感信息类型时创建关键字 (keyword) 列表，但关键字 (keyword) 列表的大小有限，如果在 PowerShell 中创建列表，则需要修改 XML 来创建或编辑它们。

相比之下，关键字 (keyword) 字典提供更简单的关键字管理，并且规模更大，支持字典中最多 1 MB 的术语 (压缩后) 。此外，关键字 (keyword) 字典可以支持任何语言。租户限制同样为压缩后 1 MB。 1 MB 的后压缩限制意味着跨租户合并的所有字典可以有近 100 万个字符。

提示

如果你不是 E5 客户，请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。立即在 Microsoft Purview 试用中心开始。了解有关注册和试用条款的详细信息。

关键字字典限制

每个租户最多可以创建 50 种敏感信息类型， (关键字 (keyword) 字典上使用的 SIT) 。若要了解租户中有多少关键字 (keyword) 字典，请按照连接到安全 & 合规性 PowerShell 中的过程连接到租户，然后运行此 PowerShell 脚本：

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

创建关键字词典的基本步骤

最常见的情况是，在文件中编译字典的关键字，例如 .csv 或 .txt 列表。在创建或编辑期间，可将字典文件上传到 SIT 中，或者通过 PowerShell cmdlet 将其导入。或者，可以从现有关键字字典或现有 关键字字典开始。最后，可以在“添加关键字 (keyword) 字典”对话框中手动输入关键字。创建关键字 (keyword) 字典时，请遵循相同的核心步骤：

使用 Microsoft Purview 门户创建关键字 (keyword) 字典

使用以下步骤为自定义词典创建或导入关键字：

登录到 Microsoft Purview 门户信息保护>Classifiers>敏感信息类型。
选择“ + 创建敏感信息类型 ”，然后为敏感信息类型输入 “名称” 和 “说明 ”。选择“下一步”。
在 “定义此敏感信息类型模式 ”页上，选择“ + 创建模式”。
在 “新建模式 ”窗口中，选择 置信度级别。
选择 “添加主要元素 ”，然后选择“ 关键字字典”。
在“添加关键字 (keyword) 字典”浮出控件上，可以：
1. 上传 TXT 或 CSV 格式的字典文件。
2. 从现有字典中进行选择。
3. 或者通过手动输入关键字并为其指定名称来创建新字典。
仍在 “新模式” 窗口中，对于 “字符邻近性”，指定必须检测任何支持元素) 字符数 (的距离。主要元素和支持元素之间的距离越近，检测到的内容就越有可能是你要查找的内容。
添加要用于提高检测所需内容的准确性 的支持元素 。
添加任何 其他检查 ，然后选择 “创建”。
选择 “下一步” 以继续创建敏感信息类型。完成后，选择“ 完成”。

使用 PowerShell 通过文件创建关键字词典

通常需要创建大型字典时，可以使用文件或从其他源导出的列表中的关键字。在下面的示例中，创建一个关键字 (keyword) 字典，其中包含要筛选外部电子邮件中的疾病列表。首先，需要连接到安全性 & 符合性 PowerShell。

将关键字复制到文本文件中，并确保每个关键字 (keyword) 位于单独的行中。
使用 Unicode 编码保存文本文件。在记事本中，导航到 >“另存为>编码>Unicode”。

运行下面的 cmdlet，以将文件读入变量中：

$fileData = [System.IO.File]::ReadAllBytes('<filename>')

运行下面的 cmdlet，以创建词典：

New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData

在自定义敏感信息类型和 DLP 策略中使用关键字词典

关键字字典可用作自定义敏感信息类型的匹配要求的一部分，也可用作敏感信息类型本身。这两者都要求创建自定义敏感信息类型。请按照链接的文章中的说明创建敏感信息类型。拥有 XML 后，需要 XML 中的 GUID 标识符才能使用该字典。

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

若要获得词典标识，请运行下面的命令，并复制 Identity 属性值：

Get-DlpKeywordDictionary -Name "Diseases"

此命令的输出如下所示：

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

将标识值粘贴到自定义敏感信息类型的 XML 中，作为 idRef。接下来，上传 XML 文件。字典现在显示在敏感信息类型列表中，你可以直接在策略中使用它，并指定需要匹配多少个关键字。

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

注意

Microsoft 365 信息保护支持双字节字符集语言，用于：

简体中文
繁体中文
韩语
日语

此支持适用于敏感信息类型。有关详细信息，请参阅双字节字符集的信息保护支持发行说明（预览版）。

提示

若要检测含有中文/日文字符和单字节字符的模式，或检测含有中文/日文和英文的模式，则需要定义两个变体的关键词或词组。

例如，若要检测像“机密的文件”这样的关键词，则要使用该关键词的两个变体; 一个是在日语和英语文本之间有空格，另一个是在日语和英语文本之间没有空格。因此，在 SIT 中要添加的关键词应该是“机密的文档”和“机密的文档”。同样，若要检测短语 "東京オリンピック2020"，则应该使用两个变体;“東京オリンピック 2020”和“東京オリンピック2020”。

除了中文/日语/双字节字符，如果关键字/短语列表还包含非中文/日语单词，例如，独立英语单词 () ，则应创建两个字典/关键字 (keyword) 列表。一个用于包含中文/日语/双字节字符的关键字，另一个用于英语单词。

例如，如果要创建包含三个短语“高度机密”、“机器密性が高い”和“机密的文档”的关键字 (keyword) 字典/列表，则应创建两个关键字 (keyword) 列表。
1. Highly confidential
2. “機密性が高い”、“机密的document”和“机密的 document”

当使用双字节连字符或双字节句号创建 regex 时，请确保像在 regex 中转义连字符或句号一样转义这两个字符。下面是示例正则表达式以供参考：

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

建议在关键词列表中使用字符串匹配而不是单词匹配。