Microsoft Syntex 中模型的要求和限制

适用于: • 所有自定义模型 |• 所有预生成模型

Microsoft Syntex 允许 创建自定义模型和预生成模型。 根据你选择的模型类型,可能存在不同的要求,例如文件类型和大小、需要支持的语言、地理注意事项,以及有助于确定要使用的模型类型的其他因素。

自定义模型:

预生成模型:

自定义模型

非结构化文档处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx ( .xls 和 .xlsx 文件中的公式不会) 运行。
对话符号。 支持的语言
此模型支持所有基于拉丁语的语言,包括英语、法语、德语、意大利语和西班牙语。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 如果 .pdf 文件是密码锁定的,则必须在提交之前将其删除。
- 每个集合中用于训练的文档的总文件大小不能超过 50 MB,PDF 文档的页数不应超过 500。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 具有非常宽或特殊尺寸(例如平面图)的图像可能在 OCR 过程中截断,并且会失去准确性。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 如果从纸张文档扫描,则扫描应是高质量的图像。
- 必须使用拉丁字母 (英语字符) 。
请注意Microsoft Office 基于文本的文件和 OCR 扫描文件 (.pdf、图像或.tiff) 的以下差异:
- 所有文件:在训练中和针对文档库) 中的文件时, (以 64,000 个字符截断。
- OCR 扫描的文件:限制为 500 页。 OCR 仅处理 PDF 和图像文件类型。
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。

任意格式文档处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:请参阅 文件类型要求
对话符号。 支持的语言
此模型支持以下语言:请参阅 通用文档模型
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适合满足 这些要求的文档。
带宽/效率符号。 优化提示
如果模型未按所需方式执行,请尝试 以下步骤来提高模型的性能
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
块符号。 自定义 Power Platform 环境
如果使用自定义环境 (而不是默认环境) 进行 Power Platform 处理,则还有其他设置要求。 有关详细信息,请参阅 自定义 Power Platform 环境
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 每个库只能有一个任意多边形或一个结构化模型。

结构化文档处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:请参阅 文件类型要求
对话符号。 支持的语言
此模型支持以下语言:请参阅 固定模板文档的模型
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适合满足 这些要求的文档。
带宽/效率符号。 优化提示
如果模型未按所需方式执行,请尝试 以下步骤来提高模型的性能
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
块符号。 自定义 Power Platform 环境
如果使用自定义环境 (而不是默认环境) 进行 Power Platform 处理,则还有其他设置要求。 有关详细信息,请参阅 自定义 Power Platform 环境
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 每个库只能有一个任意多边形或一个结构化模型。

预生成模型

合同处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。
对话符号。 支持的语言
此模型仅支持英语语言协定。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。
- 文件大小必须小于 50 MB。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 训练数据的总大小为 500 页或更少。
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。

发票处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。
对话符号。 支持的语言
此模型支持英语、西班牙语、德语、法语、意大利语、葡萄牙语和荷兰语的发票。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。
- 文件大小必须小于 50 MB。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 训练数据的总大小为 500 页或更少。
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。

收据处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。
对话符号。 支持的语言
此模型支持英语、Croation、捷克、丹麦语、荷兰语、芬兰语、德语、匈牙利语、意大利语、日语、拉脱维亚语、立陶宛语、挪威语、葡萄牙语、西班牙语、瑞典语和越南语的收据。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。
- 文件大小必须小于 50 MB。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 训练数据的总大小为 500 页或更少。
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。

敏感信息处理

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.csv、 .doc、.docx、.eml、.heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx。
对话符号。 支持的语言
此模型支持以下语言:请参阅 支持的语言
此模型还支持 手写文本打印文本的语言。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。
- 文件大小必须小于 50 MB。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 训练数据的总大小为 500 页或更少。
支持 手写文本打印文本的语言
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。