SharePoint 中非结构化文档处理的要求和限制

2025-01-23

下表概述了计划使用非结构化文档处理模型时要考虑的关键因素。

图标	说明
	支持的文件类型此模型支持以下文件类型：.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx (公式 .xls 和 .xlsx 文件中不会) 运行。
	支持的语言此模型支持所有基于拉丁语的语言，包括英语、法语、德语、意大利语和西班牙语。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 如果 .pdf 文件是密码锁定的，则必须在提交之前将其删除。 - 每个集合中用于训练的文档的总文件大小不能超过 50 MB，PDF 文档的页数不应超过 500。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。具有非常宽或特殊尺寸（例如平面图）的图像可能在 OCR 过程中截断，并且会失去准确性。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 如果从纸张文档扫描，则扫描应是高质量的图像。 - 必须使用拉丁字母 (英语字符) 。请注意Microsoft Office 基于文本的文件和 OCR 扫描文件 (.pdf、图像或.tiff) 的以下差异： - 所有文件：在训练中和针对文档库) 中的文件时， (以 64,000 个字符截断。 - OCR 扫描的文件：限制为 500 页。 OCR 仅处理 PDF 和图像文件类型。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。