了解 Microsoft Purview 中的光学字符识别

项目
10/02/2024

光学字符识别 (OCR) 扫描使 Microsoft Purview 能够扫描图像中的敏感信息。 OCR 扫描是一项可选功能，必须在租户级别启用。启用后，选择要扫描图像的位置。图像扫描适用于 Exchange、SharePoint、OneDrive、Teams、Windows 和 macOS 设备。配置 OCR 设置后，现有数据丢失防护策略 (DLP) 、记录管理和内部风险管理 (IRM) 将应用于基于图像和文本的内容。例如，假设已配置 DLP 条件 内容包含敏感信息 ，并包含数据分类器，例如 信用卡 敏感信息类型 (SIT) 。在这种情况下，Microsoft Purview 会扫描所有选定位置的文本和图像中的信用卡数字。

工作流概览

阶段	所需项
根据需要创建 Azure 订阅	如果你的组织还没有针对租户的 Azure 即用即付订阅，则全局管理员需要首先创建一个 Azure 帐户。
估算 OCR 扫描费用	使用 OCR 成本估算器估算特定用例的预期费用。
设置即用即付计费以启用 OCR。	全局或 SharePoint 管理员必须按照在 Azure 中设置Microsoft Syntex计费中的说明添加 OCR 订阅。
配置 OCR 扫描设置	组织的合规性管理员为租户配置 OCR 设置。

先决条件

若要使用 OCR 扫描，组织的全局管理员需要验证 Azure 即用即付订阅是否已到位。如果没有，则需要按照创建初始 Azure 订阅中的说明进行设置

配置计费

启用 OCR 后，所有敏感信息类型和可训练的分类器都可以检测图像中的字符。

由于这是一项可选功能，因此全局管理员必须设置即用即付计费才能启用 OCR。请参阅在 Azure 中设置Microsoft Syntex计费中的说明，为 OCR 添加订阅。

注意

在 Microsoft Syntex 中输入计费信息后，合规性管理员可以在 Microsoft Purview 中配置 OCR，而无需任何其他设置或许可要求。

可以在 Azure 中设置Microsoft Syntex计费页上找到 OCR 即用即付定价信息。

估算 OCR 扫描费用

每扫描 1,000 个项目，使用 OCR 的费用为 1.00 美元。扫描的每个图像计为一个事务。这意味着， (JPEG、JPG、PNG、BMP 或 TIFF 的独立映像) 每个映像计数为单个事务。这也意味着 PDF 文件 中的每个页面 单独收费。例如，如果 PDF 文件中有 10 页，则 PDF 文件的 OCR 扫描将计为 10 个单独的扫描。有关使用 OCR 成本估算器的信息，请参阅估算 OCR 成本。

注意

为了降低 OCR 成本，扫描每个唯一映像的费用仅产生一次。

通过 Microsoft Exchange 通过电子邮件发送的小图像（例如徽标和签名）仅针对租户所有用户的每个唯一图像扫描和计费一次。对于所有后续实例，将重复使用上一次扫描的结果。

此外，每个扫描的图像都可以在数据丢失防护、内部风险管理、自动标记和记录管理等任意数量的策略中使用，无需额外付费。

重要

有关将 Microsoft Purview 数据丢失防护 (DLP) 功能与 PDF 文件配合使用的 Adobe 要求的信息，请参阅 Adobe：Acrobat 中的Microsoft Purview 信息保护支持文章。

配置 OCR 设置

为正在使用的门户选择相应的选项卡。若要详细了解 Microsoft Purview 门户，请参阅 Microsoft Purview 门户。若要了解有关合规性门户的详细信息，请参阅 Microsoft Purview 合规门户。

Microsoft Purview 门户
合规性门户

登录到 Microsoft Purview 门户。
选择“设置”。
选择“ 光学字符识别 (OCR) ”以输入 OCR 配置设置。
选择要扫描图像的位置。
选择要从 OCR 扫描中包括或排除的通讯组。
选择“ 完成”

下表列出了支持的位置和解决方案。

权限

用于创建和部署策略的帐户必须是其中一个角色组的成员

合规性管理员
合规性数据管理员
全局管理员
信息保护
信息保护管理员

注意

通常，OCR 设置在打开后大约一小时后生效。
有关 Microsoft Purview 通信合规性中的 OCR 功能的信息，请参阅创建和管理通信合规性策略。

支持的位置和解决方案

位置	支持的解决方案
Exchange	数据丢失防护信息保护：自动标记策略记录管理：自动应用保留标签策略¹
SharePoint 网站	数据丢失防护内部风险管理² 记录管理：自动应用保留标签策略¹
OneDrive 账户	数据丢失防护记录管理：自动应用保留标签策略¹
Teams 聊天和通道消息	数据丢失防护内部风险管理²
设备	数据丢失防护内部风险管理²

¹ 支持关键字和敏感信息类型。
² 考虑图像中存在的敏感信息类型和可训练分类器，以便进行风险评分。

支持的文件类型

此功能支持扫描以下文件类型中的图像，但需要注意以下要求：

支持的文件类型	映像要求
JPEG、JPG、PNG、BMP、TIFF 和 PDF (图像仅)	文件大小：对于 Exchange 和 Teams，图像文件必须不超过 20 MB。对于 SharePoint、OneDrive 以及 Windows 和 macOS 终结点，最大图像文件大小为 50 MB。图像分辨率：图像分辨率必须至少为 50 x 50 像素，且不大于 16,000 x 16,000 像素。

重要

仅扫描启用 OCR 后上传的图像。
传入电子邮件 (来自组织外部用户的电子邮件) 和传出电子邮件 (从组织内部用户发送的电子邮件) 都受 OCR 扫描。若要将 OCR 扫描限制为仅传出电子邮件，请将 OCR 设置从 “所有通讯组 ”的默认范围更改为特定通讯组 () 并指定希望 OCR 扫描的内部通讯组。有关更改此配置的信息，请参阅配置 OCR 设置。
Exchange 中的映像不支持数据丢失防护策略提示。
如果在终结点数据丢失防护设置中排除路径，OCR 将不会扫描这些文件夹中的图像。
当为 Windows 和 macOS 设备启用 OCR 时，设备将开始将消息发送到云进行扫描。默认带宽限制是每台设备每天 1024 MB 的数据。一旦达到此每日限制，OCR 将停止扫描图像。如果要继续扫描图像，可以增加带宽限制。

支持的语言

OCR 扫描支持 150 多种语言。

摘要

若要使用 OCR，必须设置Microsoft Syntex即用即付计费。 (无需自行设置Microsoft Syntex。)
配置 OCR 发生在租户级别，因此配置 OCR 后，它可供整个 Microsoft Purview 堆栈使用。
无需为 OCR 创建单独的数据分类器。配置 OCR 后，现有敏感信息类型、基于精确数据匹配的敏感信息类型、可训练的分类器和指纹 SCT 将扫描图像以及文档和电子邮件。

通过