SharePoint 中的光学字符识别 (OCR) 服务允许您从图像和文档中提取印刷或手写文本。 图像示例包括海报、绘图和产品标签。 文档示例包括文章、报表、窗体和发票。
文本通常提取为字词、文本行和段落或文本块,从而允许访问扫描文本的数字版本。 提取的信息在搜索中编制索引,并可用于数据丢失 防护 (DLP) 等合规性功能。
例如,启用 OCR 服务,然后将图像文件添加到文档库。 该功能会自动扫描图像文件,提取相关文本,并使图像中的文本可用于搜索和索引。 此功能可让你快速准确地找到要查找的关键字和短语。
要求和限制
支持的文件类型
端点 | 支持的文件类型 |
---|---|
SharePoint 和 OneDrive |
.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid) 提取和扫描中的 docx, pptx, xlsx 嵌入图像 |
Exchange |
.jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . 中的嵌入图像 docx, pptx, xlsx, rar, tar, zip, 7z |
Teams、Windows 和 macOS 终结点 | .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only) |
除了基于图像的 PDF 之外,SharePoint OCR 还支持混合 PDF (文本和图像 PDF) 。 OCR 服务将处理新上传的混合 PDF。
注意
将 OCR 应用于图像文件时,文本将存储在 “提取的文本 元数据”列中。 将 OCR 应用于 PDF 或 TIFF 文件时,提取的文本将在搜索中编制索引,但在元数据列中不可用。
SharePoint 中的 Office 文件支持
SharePoint 现在支持 OCR Microsoft 365 Office 文件,包括Word、PowerPoint 和 Excel 文档。 添加到这些文件的任何图像都将使用 OCR 自动扫描,提取的文本将被索引以用于搜索,并集成到合规性解决方案中。 此外,SharePoint 还实施了重复数据删除过程来检查唯一图像,以避免对同一映像产生重复费用。
支持的语言
OCR 服务支持 150 多种语言。
支持的位置和解决方案
OCR 服务支持多个解决方案,如下表所示。 有关合规性解决方案的详细信息,请参阅 Microsoft Purview 中支持的位置和解决方案。
位置 | 支持的解决方案 |
---|---|
Exchange | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
SharePoint 网站 | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
OneDrive 账户 | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
Teams 聊天和频道消息 | 文本可用于 合规性解决方案。 |
设备 | 文本可用于 合规性解决方案。 |
文件限制
映像必须小于 50 MB。
图像必须至少为 50 x 50 像素,且不能大于 16,000 x 16,000 像素。
启用 OCR 后上传的图像是唯一扫描的图像。