了解 Microsoft Purview 中的光学字符识别

光学字符识别 (OCR) 扫描使 Microsoft Purview 能够扫描图像中的内容以获取敏感信息。 OCR 扫描是一项可选功能,首先在租户级别启用。 启用后,选择要扫描图像的位置。 图像扫描适用于 Exchange、SharePoint、OneDrive、Teams 和 Windows 设备。 配置 OCR 设置后,现有数据丢失防护策略 (DLP) 、记录管理和内部风险管理 (IRM) 将应用于基于图像和文本的内容。 例如,假设已配置 DLP 条件 内容包含敏感信息 ,并包含数据分类器,例如“信用卡”敏感信息类型 (SIT) 。 在这种情况下,Microsoft Purview 会扫描所有选定位置的文本和图像中的信用卡数字。

工作流概览

阶段 所需项
阶段 1: 根据需要创建 Azure 订阅 如果你的组织还没有针对租户的 Azure 即用即付订阅,则全局管理员需要首先创建 一个 Azure 帐户
阶段 2: 设置即用即付计费以启用 OCR。 全局或 SharePoint 管理员必须按照在 Azure 中设置Microsoft Syntex计费中的说明添加 OCR 订阅。
阶段 3: 配置 OCR 扫描设置 组织的合规性管理员为租户配置 OCR 设置。

阶段 1:先决条件

若要使用 OCR 扫描,组织的全局管理员需要验证 Azure 即用即付订阅是否已到位。 如果没有,则需要按照创建初始 Azure 订阅中的说明进行设置

阶段 2:配置计费

启用 OCR 后,所有敏感信息类型和可训练的分类器都可以检测图像中的字符。

由于这是一项可选功能,因此全局管理员必须设置即用即付计费才能启用 OCR。 请参阅在 Azure 中设置Microsoft Syntex计费中的说明,为 OCR 添加订阅。

注意

在 Microsoft Syntex 中输入计费信息后,合规性管理员可以在 Microsoft Purview 中配置 OCR,而无需任何其他设置或许可要求。

可以在 Azure 中设置Microsoft Syntex计费页上找到 OCR 即用即付定价信息。

费用

每扫描 1,000 个项目,使用 OCR 的费用为 1.00 美元。 扫描的每个图像计为一个事务。 这意味着, (JPEG、JPG、PNG、BMP 或 TIFF 的独立映像) 每个映像计数为单个事务。 这也意味着 PDF 文件 中的每个页面 单独收费。 例如,如果 PDF 文件中有 10 页,则 PDF 文件的 OCR 扫描将计为 10 个单独的扫描。

注意

为了降低 OCR 成本,扫描每个唯一映像的费用仅产生一次。

通过 Microsoft Exchange 通过电子邮件发送的小图像(例如徽标和签名)仅针对租户所有用户的每个唯一图像进行一次扫描和计费。 对于所有后续实例,将重复使用上一次扫描的结果。

此外,每个扫描的图像都可以在数据丢失防护、内部风险管理、自动标记和记录管理等任意数量的策略中使用,无需额外付费。

重要

有关将 Microsoft Purview 数据丢失防护 (DLP) 功能与 PDF 文件配合使用的 Adobe 要求的信息,请参阅 Adobe:Acrobat 中的Microsoft Purview 信息保护支持文章。

若要查看帐单,请按照监视Microsoft Syntex即用即付使用情况中所述的说明操作。

估算帐单

首次开始使用 OCR 时,请将使用量限制为少数人和适用的工作负载。 过了一会儿,就可以在 Azure 中查看帐单,并查看使用情况统计信息 & 每天的费用。 从那里,你可以推断整个用户集的成本。 此外,可以使用 Azure 成本管理中的“工作负载”标记来查看每个工作负荷的使用情况明细。

阶段 3:配置 OCR 设置

  1. 在Microsoft Purview 合规门户中,转到“设置”。
  2. 选择“ 光学字符识别 (OCR) ”以输入 OCR 配置设置。
  3. 选择要扫描图像的位置。
  4. 选择要从 OCR 扫描中包括或排除的通讯组。
  5. 选择 “完成”

下表列出了支持的位置和解决方案

权限

用于创建和部署策略的帐户必须是其中一个角色组的成员

  • 合规性管理员
  • 合规性数据管理员
  • 全局管理员
  • 信息保护
  • 信息保护管理员

注意

支持的位置和解决方案

位置 支持的解决方案
Exchange 数据丢失防护

信息保护: 自动标记策略

记录管理: 自动应用保留标签策略1
SharePoint 网站 数据丢失防护

内部风险管理2

记录管理: 自动应用保留标签策略1
OneDrive 账户 数据丢失防护

记录管理: 自动应用保留标签策略1
Teams 聊天和通道消息 数据丢失防护

内部风险管理2
设备 数据丢失防护

内部风险管理2

1 支持关键字和敏感信息类型。
2 考虑图像中存在的敏感信息类型和可训练分类器,以便进行风险评分。


支持哪些文件类型?

此功能支持扫描以下文件类型中的图像,但需要注意以下要求:

支持的文件类型 映像要求
JPEG、JPG、PNG、BMP、TIFF 和 PDF (图像仅) 文件大小: 对于 Exchange 和 Teams,图像文件必须不超过 20 MB。 对于 SharePoint、OneDrive 和 Windows 终结点,最大图像文件大小为 50 MB。

图像分辨率: 图像分辨率必须至少为 50 x 50 像素,且不大于 16,000 x 16,000 像素。

重要

  • 仅扫描启用 OCR 后上传的图像。
  • 传入电子邮件 (来自组织外部用户的电子邮件) 和传出电子邮件 (从组织内部用户发送的电子邮件) 都受 OCR 扫描。 若要将 OCR 扫描限制为仅传出电子邮件,请将 OCR 设置从 “所有通讯组 ”的默认范围更改为特定通讯组 () 并指定希望 OCR 扫描的内部通讯组。 有关更改此配置的信息,请参阅 阶段 3:配置 OCR 设置
  • Exchange 中的映像不支持数据丢失防护策略提示。
  • 如果在终结点数据丢失防护设置中 排除路径 ,OCR 将不会扫描这些文件夹中的图像。
  • 当为 Windows 设备启用 OCR 时,设备将开始向云发送消息进行扫描。 默认带宽限制是 每台设备每天 1024 MB 的数据。 一旦达到此每日限制,OCR 将停止扫描图像。 如果要继续扫描图像,可以增加带宽限制。

支持哪些语言?

OCR 扫描支持 150 多种语言

摘要

另请参阅