SharePoint 中的光学字符识别概述

注意

到 2025 年 12 月,如果你设置了即用即付计费,则可以免费试用有限数量的光学字符识别和其他所选内容服务。 有关信息和限制,请参阅 试用即用即付服务

SharePoint 中的光学字符识别 (OCR) 服务允许您从图像和文档中提取印刷或手写文本。 图像示例包括海报、绘图和产品标签。 文档示例包括文章、报表、窗体和发票。

文本通常提取为字词、文本行和段落或文本块,从而允许访问扫描文本的数字版本。 提取的信息在搜索中编制索引,并可用于数据丢失 防护 (DLP) 等合规性功能。

例如,启用 OCR 服务,然后将图像文件添加到文档库。 该功能会自动扫描图像文件,提取相关文本,并使图像中的文本可用于搜索和索引。 此功能可让你快速准确地找到要查找的关键字和短语。

要求和限制

支持的文件类型

端点 支持的文件类型
SharePoint 和 OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid) 提取和扫描中的 docx, pptx, xlsx 嵌入图像
Exchange .jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . 中的嵌入图像 docx, pptx, xlsx, rar, tar, zip, 7z
Teams、Windows 和 macOS 终结点 .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only)

除了基于图像的 PDF 之外,SharePoint OCR 还支持混合 PDF (文本和图像 PDF) 。 OCR 服务将处理新上传的混合 PDF。

注意

将 OCR 应用于图像文件时,文本将存储在 “提取的文本 元数据”列中。 将 OCR 应用于 PDF 或 TIFF 文件时,提取的文本将在搜索中编制索引,但在元数据列中不可用。

SharePoint 中的 Office 文件支持

SharePoint 现在支持 OCR Microsoft 365 Office 文件,包括Word、PowerPoint 和 Excel 文档。 添加到这些文件的任何图像都将使用 OCR 自动扫描,提取的文本将被索引以用于搜索,并集成到合规性解决方案中。 此外,SharePoint 还实施了重复数据删除过程来检查唯一图像,以避免对同一映像产生重复费用。

支持的语言

OCR 服务支持 150 多种语言

支持的位置和解决方案

OCR 服务支持多个解决方案,如下表所示。 有关合规性解决方案的详细信息,请参阅 Microsoft Purview 中支持的位置和解决方案

位置 支持的解决方案
Exchange 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
SharePoint 网站 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
OneDrive 账户 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
Teams 聊天和频道消息 文本可用于 合规性解决方案
设备 文本可用于 合规性解决方案

文件限制

  • 映像必须小于 50 MB。

  • 图像必须至少为 50 x 50 像素,且不能大于 16,000 x 16,000 像素。

  • 启用 OCR 后上传的图像是唯一扫描的图像。