文档指纹识别

项目
06/29/2024

文档指纹识别是一项Microsoft Purview 数据丢失防护 (DLP) 功能，可将标准表单转换为敏感信息类型 (SIT) ，可在 DLP 策略的规则中使用。

文档指纹识别通过识别整个组织中使用的标准表单，可以更轻松地保护敏感信息。本文介绍文档指纹识别背后的概念，以及如何使用用户界面或使用 PowerShell 创建文档指纹。

文档指纹包括以下优势：

DLP 可以在 Exchange、SharePoint、OneDrive、Teams 和设备中使用文档指纹作为检测方法。
可以通过 Microsoft Purview 用户界面管理文档指纹功能。
支持部分匹配。
支持完全匹配。
提高了检测准确性
支持使用多种语言进行检测，包括中文、日语和韩语等双字节语言。

重要

如果你是 E5 客户，我们建议更新现有指纹，以利用完整的文档指纹功能集。如果你是 E3 客户，我们建议升级到 E5 许可证。如果选择不，则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。

文档指纹识别的基本方案

如前所述，文档指纹功能将标准形式的信息转换为敏感信息类型 (SIT) ，可在 DLP 策略的规则中使用。例如，您可以基于空白父模板来创建文档指纹，然后创建 DLP 策略，用于检测和阻止所有包含敏感内容的传出父模板。（可选）可以设置策略提示，以通知发件人他们可能正在发送敏感信息，并且发件人应验证收件人是否有资格接收专利。此过程与组织中使用的任何基于文本的表单一起使用。可以上传的其他表单示例包括：

政府表单
符合《健康保险可携性与责任法案》 (HIPAA) 的表单
人力资源部的员工信息表单
组织专门创建的自定义表单

理想情况下，贵组织已经创建使用特定表单传输敏感信息的业务实践。若要启用检测，请上传要转换为文档指纹的空窗体。接下来，设置相应的策略。完成这些步骤后，DLP 将检测出站邮件中与该指纹匹配的任何文档。

文档指纹的工作原理

你可能已经猜到文档没有实际指纹，但名称有助于解释该功能。人的指纹各不相同，同理，文档的单词模式也各不相同。上传文件时，DLP 会识别文档中的唯一字模式，基于该模式创建文档指纹，并使用该文档指纹来检测包含相同模式的出站文档。这也是为什么上载表单或模板可以创建最有效的文档指纹的原因。填写表单的每个人都使用相同的原始字词集，然后将自己的字词添加到文档中。如果出站文档不受密码保护，并且包含原始表单中的所有文本，DLP 可以确定文档是否与文档指纹匹配。

文档指纹图示。

专利模板包含空白字段“专利标题”、“发明人”和“说明”，以及每个字段的说明，即单词模式。上传原始专利模板时，它采用受支持的文件类型之一和纯文本格式。 DLP 将此单词模式转换为文档指纹，该指纹是一个小型 Unicode XML 文件，其中包含表示原始文本的唯一哈希值。指纹在 Active Directory 中保存为数据分类。 (作为安全措施，原始文档本身不存储在服务上;仅存储哈希值。无法从哈希值重新构造原始文档。) 然后，专利指纹将成为可与 DLP 策略关联的 SIT。将指纹与 DLP 策略关联后，DLP 会检测包含与专利指纹匹配的内容的任何出站电子邮件，并根据组织的策略对其进行处理。

例如，如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略，DLP 将使用专利指纹来检测专利并阻止这些电子邮件。或者，你可能希望让法律部门能够向其他组织发送专利，因为它有这样做的业务需求。若要允许特定部门发送敏感信息，请在 DLP 策略中为这些部门创建例外。或者，可以允许他们用业务理由替代策略提示。

重要

嵌入文档中的文本不被视为指纹创建。需要提供不包含嵌入文档的示例模板文件。

支持的文件类型

文档指纹识别支持邮件流规则中支持的相同文件类型 (也称为传输规则) 。有关受支持的文件类型的列表，请参阅邮件流规则内容检查支持的文件类型。一个关于文件类型的快速说明：邮件流规则和文档指纹都不支持 .dotx 文件类型，它是 Microsoft Word 中的模板文件。当你在此文档指纹识别文章和其他文档指纹识别文章中看到“template”一词时，它指的是已建立为标准表单的文档，而不是模板文件类型。

文档指纹的限制

在以下情况下，文档指纹不会检测敏感信息：

密码保护的文件
仅包含图像的文件
不包含用于创建文档指纹的原始表单中所有文本的文档
大于 4 MB 的文件

注意

若要对设备使用文档指纹，必须启用 高级分类扫描和保护 。

指纹存储在单独的规则包中。此规则包的最大大小限制为 1（共 150 KB）。根据此限制，可以为每个租户创建大约 50 个指纹。

以下示例演示基于专利模板创建文档指纹时会发生什么情况。但是，可以使用任何窗体作为创建文档指纹的基础。

示例：创建与专利模板的文档指纹匹配的专利文档

为正在使用的门户选择相应的选项卡。若要详细了解 Microsoft Purview 门户，请参阅 Microsoft Purview 门户。若要了解有关合规性门户的详细信息，请参阅 Microsoft Purview 合规性门户。

Microsoft Purview 门户
合规性门户

在 Microsoft Purview 门户中，导航到 数据丢失防护>分类器>敏感信息类型。
在 “敏感信息类型 ”页上，选择“ + 创建基于指纹的 SIT”。
输入新 SIT 的名称和说明。
上传要用作指纹模板的文件。
可选：调整每个置信度级别的要求。 (有关详细信息，请参阅部分匹配和精确匹配。)
选择“下一步”。
查看设置，然后选择“ 创建”。
显示确认页时，选择“ 完成”。

与专利模板的文档指纹匹配的专利文档的 PowerShell 示例

>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))

>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form  -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"

部分匹配

若要配置文档指纹的部分匹配，请在配置置信度时选择 “低”、“ 中” 或 “高 ”，并指定文件中必须以 30% 到 90% 之间的百分比与指纹匹配的文本量。

高置信度返回最少的误报，但可能会导致更多的误报。低置信度或中等置信度返回更多的误报，但很少到零的误报。

低置信度：匹配项包含的误报最少，但误报最多。低置信度返回所有低置信度、中等置信度和高置信度匹配项。
中等置信度：匹配项将包含平均数量的误报和误报。中等置信度返回所有中等和高置信度匹配项。
高置信度：匹配项包含的误报最少，但误报最多。

完全匹配

若要配置文档指纹的完全匹配，请选择“ 精确 ”作为高置信度级别的值。将高置信度设置为 Exact 时，仅检测到与指纹文本完全相同的文件。如果文件甚至与指纹有小偏差，则不会检测到它。

已在使用指纹 SCT？

这些指纹的现有指纹和策略/规则应继续工作。如果不想使用最新的指纹功能，则无需执行任何操作。

如果你有 E5 许可证并且想要使用最新的指纹功能，则可以创建新的指纹或将策略迁移到较新版本。

注意

不支持使用已存在指纹的模板创建新指纹。

在 Microsoft Purview 合规性门户中，导航到 “数据丢失防护>策略 ”，然后选择“ + 创建策略”。
对于 “类别 ”，选择“ 自定义 ”，对于 “法规 ”，请选择“ 自定义策略”。
选择“下一步”。
为策略命名，然后提供说明>。
在 “分配管理单元 ”页上，选择“ 下一步”。
选择要应用策略的位置，然后选择“ 下一步”。
在 “定义策略设置” 页上，选择“ 创建或自定义高级 DLP 规则 ”，然后选择“ 下一步”。
选择“ + 创建规则”。
为规则提供名称和说明。
在 “条件” 下，选择 “添加条件>内容包含”。
为新的 DLP 规则集提供 组名称>“添加>敏感信息类型”。
搜索并选择指纹 SIT >添加的名称。
完成规则创建工具的其余部分以配置规则。
选择“保存”。
选择“下一步”。
选择“ 在模拟模式下运行策略 ”，然后选择“ 下一步”。
选择 “提交 ”，然后选择“ 完成”。

使用 PowerShell 基于文档指纹创建自定义敏感信息类型

目前，只能在安全性 & 合规性 PowerShell 中创建文档指纹。

DLP 使用敏感信息类型 (SIT) 来检测敏感内容。若要基于文档指纹创建自定义 SIT，请使用 New-DlpSensitiveInformationType cmdlet。以下示例基于文件 C：\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。

$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))

New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."

最后，将“Contoso 客户机密”敏感信息类型添加到 Microsoft Purview 合规性门户中的 DLP 策略。本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。

New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True

还可以在 Exchange 的邮件流规则中使用指纹 SIT，如以下示例所示。若要运行此命令，首先需要连接到 Exchange PowerShell。另请注意，SIT 与 Exchange 管理中心同步需要一段时间。

New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}

DLP 现在检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。

有关语法和参数信息，请参阅：

编辑、测试或删除文档指纹

若要通过用户界面执行此操作，请打开要编辑、测试或删除的指纹 SIT，然后选择相应的图标。

若要通过 PowerShell 执行此操作，请 () 运行以下命令。

编辑文档指纹

>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

测试文档指纹

>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults

删除文档指纹

>> Remove-DlpSensitiveInformationType "Fingerprint SIT"

通过用户界面使用指纹 SIT 迁移新策略

导航到 “数据分类>分类器>”“敏感信息类型”。
打开包含要迁移的指纹的 SIT。
选择 “编辑”。
再次上传同一指纹文件。
查看指纹设置 >“完成”。

使用 PowerShell 迁移指纹

输入以下命令：

Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

通过