文档 AI （预览版）

使用 AI 从常见文档格式、扫描的文档和文档照片中提取结构化数据，包括命名字段、表、条形码、分类和摘要。还支持手写和低质量的照片和扫描，以及数字文档输入。支持各种语言，并且能够从文档的视觉布局中分析和推断语义结构。

此连接器在以下产品和区域中可用：

服务	Class	区域
Copilot Studio	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
逻辑应用程序	标准	除以下各项外的所有逻辑应用区域： - Azure Government区域 - Azure中国区域 - 美国国防部（DoD）
Power Apps	高级	除以下各项外的所有 Power Apps 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）
Power Automate	高级	除以下各项外的所有 Power Automate 区域： - 美国政府（GCC） - 美国政府（GCC High） - 由世纪互联运营的中国云 - 美国国防部（DoD）

联系人
Name	Cloudmersive
URL	https://www.cloudmersive.com
Email	support@cloudmersive.com

连接器元数据
发布者	Cloudmersive、LLC
网站	https://www.cloudmersive.com
隐私策略	https://www.cloudmersive.com/privacy-policy
类别	人工智能;内容和文件

Cloudmersive Document AI 连接器

Cloudmersive Document AI API 使你能够使用下一代 AI 从文档中提取数据、字段、见解和文本。

先决条件

需要满足以下条件才能继续作：

具有高级连接器支持的Microsoft Power Apps、Power Automate或Azure Logic Apps
Cloudmersive API 密钥

如何获取凭据

若要使用此连接器，需要一个 Cloudmersive 帐户。可以使用 Microsoft 帐户注册或创建 Cloudmersive 帐户。按照以下步骤获取 API 密钥。

获取 API 密钥和机密

注册 Cloudmersive 帐户
单击 API 密钥

在这里，可以创建并查看 API 密钥页中列出的 API 密钥。只需将此 API 密钥复制并粘贴到 Cloudmersive Document AI 连接器中。

现在，你已准备好开始使用 Cloudmersive CDR 连接器。

支持的作

连接器支持以下作：

Enforce Policies to a Document to allow or block it using Advanced AI：对文档强制实施策略，以允许或阻止它使用高级 AI。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。
Answer Questions about a Document in a structured way using Advanced AI：回答布尔值（是/否），使用高级 AI 回答有关文档内容的多选和自由回答问题。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。
Extract Text from a Document using AI：使用 AI 从文档中提取原始文本。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。支持各种语言。每页使用 100 个 API 调用。
Extract Field Values from a Document using AI：使用 AI 从文档中提取字段值（例如发票号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Field Values from a Document using Advanced AI：使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Tables of Data from a Document using AI：使用 AI 从文档中提取由行和数据列组成的表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Barcodes of from a Document using AI：使用 AI 从文档中提取所有条形码。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG、HEIC 和 WEBP。每页使用 100 个 API 调用。
Extract All Fields and Tables of Data from a Document using AI：使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Classification or Category from a Document using AI：使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Classification or Category from a Document using Advanced AI：使用高级 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Summary from a Document using AI：使用人工智能创建输入文档的 1 段摘要。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
Extract Text from a Document using AI as a Batch Job：创建异步批处理作业，用于将大型文档作为 AI 批处理作业进行处理。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。支持各种语言。需要Managed Instance或私有云部署。
Extract Field Values from a Document using Advanced AI as a Batch Job：创建异步批处理作业，用于将大型文档作为 AI 批处理作业进行处理。使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
Extract All Fields and Tables of Data from a Document using AI as a Batch Job：创建异步批处理作业，用于将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
Extract Classification or Category from a Document using AI as a Batch Job：创建异步批处理作业，用于将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
Get the status and result of an Extract Document Batch Job：返回异步作业的结果 - 可能的状态可以是 STARTED 或 COMPLETED。此 API 仅适用于 Cloudmersive Managed Instance 和私有云部署。

正在创建连接

连接器支持以下身份验证类型：


默认	用于创建连接的参数。	所有区域	不可共享

违约

适用：所有区域

用于创建连接的参数。

这是不可共享的连接。如果 Power App 与另一个用户共享，系统会提示其他用户显式创建新连接。

Name	类型	Description	必选
Apikey	securestring	此 API 的 Apikey	True

限制

名称	调用	续订期
每个连接的 API 调用数	100	60 秒

操作

使用 AI 从文档中提取分类或类别	使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用 AI 从文档中提取字段值	使用 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用 AI 从文档中提取所有字段和数据表	使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用 AI 从文档中提取摘要	使用人工智能创建输入文档的 1 段摘要。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用 AI 从文档中提取数据表	使用 AI 从文档中提取由行和数据列组成的表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用 AI 从文档中提取文本	使用 AI 从文档中提取原始文本。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。支持各种语言。每页使用 100 个 API 调用。
使用 AI 从文档中提取条形码	使用 AI 从文档中提取所有条形码。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG、HEIC 和 WEBP。每页使用 100 个 API 调用。
使用 AI 作为批处理作业从文档中提取分类或类别	创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
使用 AI 作为批处理作业从文档中提取所有字段和数据表	创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
使用 AI 作为批处理作业从文档中提取文本	创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。支持各种语言。需要Managed Instance或私有云部署。
使用高级 AI 从文档中提取分类或类别	使用高级 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用高级 AI 从文档中提取字段值	使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。
使用高级 AI 以结构化方式回答有关文档的问题	回答布尔值（是/否），使用高级 AI 回答有关文档内容的多选和自由响应问题。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。
使用高级 AI 作为批处理作业从文档中提取字段值	创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。
对文档强制实施策略以允许或阻止使用高级 AI	对文档强制实施策略，以允许或阻止它使用高级 AI。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。
获取提取文档批处理作业的状态和结果	返回异步作业的结果 - 可能的状态可以是 STARTED 或 COMPLETED。此 API 仅适用于 Cloudmersive Managed Instance 和私有云部署。

使用 AI 从文档中提取分类或类别

操作 ID:: ExtractClassification

使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
要提取的所需分类	Categories	string	要提取的所需分类
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile	file	输入文档或文档照片，以便从中提取数据

使用 AI 对文档进行分类的结果

Body: DocumentClassificationResult

使用 AI 从文档中提取字段值

操作 ID:: ExtractFields

使用 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
要提取的所需字段，用逗号分隔	FieldNames	string	要提取的所需字段，用逗号分隔
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile	file	输入文档或文档照片，以便从中提取数据

从文档中提取字段的结果

Body: ExtractFieldsResponse

使用 AI 从文档中提取所有字段和数据表

操作 ID:: ExtractAllFieldsAndTables

使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
可选：设置图像预处理级别以提高准确性。 ...	preprocessing	string	可选：设置图像预处理级别以提高准确性。 ...
输入文档或文档照片，以便从中提取数据	InputFile	file	输入文档或文档照片，以便从中提取数据

从文档中提取字段的结果

Body: ExtractFieldsAndTablesResponse

使用 AI 从文档中提取摘要

操作 ID:: ExtractSummary

使用人工智能创建输入文档的 1 段摘要。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

汇总文档的结果

Body: SummarizeDocumentResponse

使用 AI 从文档中提取数据表

操作 ID:: ExtractTables

使用 AI 从文档中提取由行和数据列组成的表。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

从文档中提取表的结果

Body: ExtractTablesResponse

使用 AI 从文档中提取文本

操作 ID:: ExtractText

使用 AI 从文档中提取原始文本。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。支持各种语言。每页使用 100 个 API 调用。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

从文档中提取文本的结果

Body: ExtractTextResponse

使用 AI 从文档中提取条形码

操作 ID:: ExtractBarcodes

使用 AI 从文档中提取所有条形码。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG、HEIC 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

从文档中提取条形码的结果

Body: ExtractBarcodesAiResponse

使用 AI 作为批处理作业从文档中提取分类或类别

操作 ID:: ExtractClassificationFromDocumentBatchJob

创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。

参数

名称	密钥	类型	说明
要提取的所需分类	Categories	string	要提取的所需分类
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile	file	输入文档或文档照片，以便从中提取数据

执行拆分文档批处理作业的结果

Body: ExtractDocumentBatchJobResult

使用 AI 作为批处理作业从文档中提取所有字段和数据表

操作 ID:: ExtractAllFieldsAndTablesFromDocumentBatchJob

创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用 AI 从文档中提取由行和数据列构成的所有字段和表。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

执行拆分文档批处理作业的结果

Body: ExtractDocumentBatchJobResult

使用 AI 作为批处理作业从文档中提取文本

操作 ID:: ExtractTextFromDocumentBatchJob

创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。支持各种语言。需要Managed Instance或私有云部署。

参数

名称	密钥	必需	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode		string	选;识别模式 - 高级（默认值）提供最高...
输入文档或文档照片，以便从中提取数据	InputFile		file	输入文档或文档照片，以便从中提取数据

执行拆分文档批处理作业的结果

Body: ExtractDocumentBatchJobResult

使用高级 AI 从文档中提取分类或类别

操作 ID:: ExtractClassificationAdvanced

使用高级 AI 从文档中提取分类或类别（例如发票、收据、税务表单或表单 1040、表单 1040 EZ 等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
InputFile	InputFile	byte	作为字节数组执行作的输入文档文件
类别名称	CategoryName	string	分类的名称
CategoryDescription	CategoryDescription	string	可选但建议：自然语言分类的说明
预处理	Preprocessing	string	可选：设置图像预处理级别以提高准确性。可能的值为“Auto”、“SmoothEdges”、“SmoothEdgesPlus”、“Compatability”和“None”。默认值为“自动”。设置为 SmoothEdges 以平滑输入图像中的严酷边缘，以提高识别准确性。设置为 SmoothEdgesPlus，以将严酷边缘平滑到更高的程度。设置为兼容性，以实现最大 PDF 功能兼容性。
ResultCrossCheck	ResultCrossCheck	string	可选：设置对输入执行的输出准确叉检查级别。可能的值为“None”、“Advanced”、“Ultra”和“Hyper”。默认值为 None。超级和 Hyper 将产生最高的准确度，但代价是较长的处理时间。
MaximumPagesProcessed	MaximumPagesProcessed	integer	可选：限制已处理的页数
RotateImageDegrees	RotateImageDegrees	double	可选：按指定度数在识别之前旋转输入图像;有效值范围从 -360 到 +360。

使用 AI 对文档进行分类的结果

Body: DocumentAdvancedClassificationResult

使用高级 AI 从文档中提取字段值

操作 ID:: ExtractFieldsAdvanced

使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、XLSX、PPTX、EML、MSG、JPG、PNG 和 WEBP。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
InputFile	InputFile	byte	作为字节数组执行作的输入文档文件
字段名称	FieldName	string	要提取的字段的名称
FieldOptional	FieldOptional	boolean	可选：如果字段为可选，则为 True;如果需要，则为 false（默认值）
FieldDescription	FieldDescription	string	可选但建议：字段说明 - 使用此字段描述字段的格式、格式设置方式、其唯一性等。
FieldExample	FieldExample	string	可选：字段的示例标签或值
MaximumPagesProcessed	MaximumPagesProcessed	integer	可选：限制已处理的页数
预处理	Preprocessing	string	可选：设置图像预处理级别以提高准确性。可能的值为“Auto”、“SmoothEdges”、“SmoothEdgesPlus”、“ContrastEdgesPlus”、“ContrastEdgesPlus”、“Invert”、“Binarize”、“Compatability”和“None”。默认值为“自动”。设置为 SmoothEdges 以平滑输入图像中的严酷边缘，以提高识别准确性。设置为 SmoothEdgesPlus，以将严酷边缘平滑到更高的程度。设置为 ContrastEdges 和 ContrastEdgesPlus，以增强低质量黑白或灰度图像的对比度和可读性。设置为“倒转”以反转输入图像。设置为 Binarize 以对输入映像进行二进制化。设置为兼容性，以实现最大 PDF 功能兼容性。
ResultCrossCheck	ResultCrossCheck	string	可选：设置对输入执行的输出准确叉检查级别。可能的值为“None”、“Advanced”和“Ultra”。默认值为 None。 Ultra 将产生最高的准确度，但代价是较长的处理时间。
RotateImageDegrees	RotateImageDegrees	double	可选：按指定度数在识别之前旋转输入图像;有效值范围从 -360 到 +360。

从文档中提取字段的结果

Body: ExtractFieldsAdvancedResponse

使用高级 AI 以结构化方式回答有关文档的问题

操作 ID:: AnswerQuestions

回答布尔值（是/否），使用高级 AI 回答有关文档内容的多选和自由响应问题。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
InputFile	InputFile	byte	作为字节数组的输入文件
QuestionId	QuestionId	string	问题的唯一 ID，例如 1 或 2A
QuestionText	QuestionText	string	使用自然语言提问，询问答案解析为“是”或“否”的文档，例如“此文档是否由双方签名和反签名？
QuestionId	QuestionId	string	问题的唯一 ID，例如 1 或 2A
QuestionText	QuestionText	string	使用自然语言提问的文档，答案解析为一个固定数量的选择之一，例如“本协议的管辖法律是什么？
ChoiceId	ChoiceId	string	响应选项的唯一 ID，例如 3C
ChoiceText	ChoiceText	string	此选项的说明文本，例如“Delaware”
QuestionId	QuestionId	string	问题的唯一 ID，例如 7 或 5A
QuestionText	QuestionText	string	使用自然语言提问，询问答案如何解决到免费回复的文档，例如“谁是本协议中的对应方？
RecognitionMode	RecognitionMode	string	选;识别模式 - 正常（默认值）提供最高准确度但速度较慢，而 Normal 为低质量图像提供更快的响应，但准确度较低

执行文档问答作的结果

Body: DocumentQuestionAnswersResult

使用高级 AI 作为批处理作业从文档中提取字段值

操作 ID:: ExtractFieldsFromDocumentAdvancedBatchJob

创建异步批处理作业，以将大型文档作为 AI 批处理作业进行处理。使用高级 AI 从文档中提取字段值（例如发票编号、发票日期、名片电话号码等）。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。需要Managed Instance或私有云部署。

参数

名称	密钥	类型	说明
选;识别模式 - 高级（默认值）提供最高...	recognitionMode	string	选;识别模式 - 高级（默认值）提供最高...
InputFile	InputFile	byte	作为字节数组执行作的输入文档文件
字段名称	FieldName	string	要提取的字段的名称
FieldOptional	FieldOptional	boolean	可选：如果字段为可选，则为 True;如果需要，则为 false（默认值）
FieldDescription	FieldDescription	string	可选但建议：字段说明 - 使用此字段描述字段的格式、格式设置方式、其唯一性等。
FieldExample	FieldExample	string	可选：字段的示例标签或值
MaximumPagesProcessed	MaximumPagesProcessed	integer	可选：限制已处理的页数
预处理	Preprocessing	string	可选：设置图像预处理级别以提高准确性。可能的值为“Auto”、“SmoothEdges”、“SmoothEdgesPlus”、“ContrastEdgesPlus”、“ContrastEdgesPlus”、“Invert”、“Binarize”、“Compatability”和“None”。默认值为“自动”。设置为 SmoothEdges 以平滑输入图像中的严酷边缘，以提高识别准确性。设置为 SmoothEdgesPlus，以将严酷边缘平滑到更高的程度。设置为 ContrastEdges 和 ContrastEdgesPlus，以增强低质量黑白或灰度图像的对比度和可读性。设置为“倒转”以反转输入图像。设置为 Binarize 以对输入映像进行二进制化。设置为兼容性，以实现最大 PDF 功能兼容性。
ResultCrossCheck	ResultCrossCheck	string	可选：设置对输入执行的输出准确叉检查级别。可能的值为“None”、“Advanced”和“Ultra”。默认值为 None。 Ultra 将产生最高的准确度，但代价是较长的处理时间。
RotateImageDegrees	RotateImageDegrees	double	可选：按指定度数在识别之前旋转输入图像;有效值范围从 -360 到 +360。

执行拆分文档批处理作业的结果

Body: ExtractDocumentBatchJobResult

对文档强制实施策略以允许或阻止使用高级 AI

操作 ID:: ApplyRules

对文档强制实施策略，以允许或阻止它使用高级 AI。支持的输入文档格式包括 DOCX、PDF、PNG 和 JPG。每页使用 100 个 API 调用。

参数

名称	密钥	类型	说明
InputFile	InputFile	byte	作为字节数组的输入文件
规则编号	RuleId	string
规则类型	RuleType	string	可能的值为 ALLOW 和 DENY
RuleDescription	RuleDescription	string	自然语言规则的说明，例如，不允许包含冒犯性语言的文档
RecognitionMode	RecognitionMode	string	选;识别模式 - 正常（默认值）提供最高准确度但速度较慢，而 Normal 为低质量图像提供更快的响应，但准确度较低

执行文档策略强制作的结果

Body: DocumentPolicyResult

获取提取文档批处理作业的状态和结果

操作 ID:: GetAsyncJobStatus

返回异步作业的结果 - 可能的状态可以是 STARTED 或 COMPLETED。此 API 仅适用于 Cloudmersive Managed Instance 和私有云部署。

参数

名称	密钥	必需	类型	说明
用于获取状态的批处理作业的作业 ID	AsyncJobID		string	用于获取状态的批处理作业的作业 ID

执行批处理作业作的结果

Body: ExtractDocumentJobStatusResult

定义

DocumentAdvancedClassificationResult

使用 AI 对文档进行分类的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
DocumentCategoryResult	DocumentCategoryResult	string	应用于文档的类别;如果无法识别某个类别，则将使用“其他”。空格替换为下划线。
置信度分数	ConfidenceScore	double	0.0 和 1.0 之间的置信度分数，其中值 > 0.8 表示置信度高

DocumentClassificationResult

使用 AI 对文档进行分类的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
DocumentCategoryResult	DocumentCategoryResult	string	应用于文档的类别;如果无法识别某个类别，则将使用“其他”。空格替换为下划线。

DocumentPolicyResult

执行文档策略强制作的结果

名称	路径	类型	说明
CleanResult	CleanResult	boolean	如果文档符合所有策略，则为 True;否则为 false
RiskScore	RiskScore	double	风险分数介于 0.0 和 1.0 之间，其中 0.5 以上的值正在增加风险级别
RuleViolations	RuleViolations	array of PolicyRuleViolation	策略冲突

DocumentQuestionAnswerItem

回答输入问题

名称	路径	类型	说明
QuestionId	QuestionId	string	输入问题的 ID
AnswerValue	AnswerValue	string	回答响应值，格式为字符串，对于此问题。布尔问题将返回 YES 或 NO。
AnswerRationale	AnswerRationale	string	解释为什么给出这个答案的理由
置信度分数	ConfidenceScore	double	0.0 和 1.0 之间的置信度分数，其中值高于 0.8 表示高置信度

DocumentQuestionAnswersResult

执行文档问答作的结果

名称	路径	类型	说明
成功	Successful	boolean	如果作成功完成，则为 True;否则为 false
置信度分数	ConfidenceScore	double	0.0 和 1.0 之间的置信度分数，其中值高于 0.8 表示高置信度
AnswerResults	AnswerResults	array of DocumentQuestionAnswerItem

ExtractBarcodesAiResponse

从文档中提取条形码的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
BarcodeResults	BarcodeResults	array of ExtractedBarcodeItem	提取作产生的表值结果

ExtractDocumentBatchJobResult

执行拆分文档批处理作业的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
AsyncJobID	AsyncJobID	string	创建作业时，将返回异步作业 ID。使用 GetAsyncJobStatus API 使用 AsyncJobID 检查此作业的状态，并在作业完成时获取结果

ExtractDocumentJobStatusResult

执行批处理作业作的结果

名称	路径	类型	说明
成功	Successful	boolean	如果检查作业状态的作成功，则为 True;否则为 false
AsyncJobStatus	AsyncJobStatus	string	返回异步作业的作业状态（如果适用）。可能的状态为 STARTED 和 COMPLETED
AsyncJobID	AsyncJobID	string	职位编号
ExtractTextResult	ExtractTextResult	ExtractTextResponse	从文档中提取文本的结果
ExtractFieldsAndTablesResult	ExtractFieldsAndTablesResult	ExtractFieldsAndTablesResponse	从文档中提取字段的结果
ExtractFieldsResult	ExtractFieldsResult	ExtractFieldsResponse	从文档中提取字段的结果
ExtractClassificationResult	ExtractClassificationResult	DocumentClassificationResult	使用 AI 对文档进行分类的结果
错误消息	ErrorMessage	string	错误消息（如果有）

ExtractFieldsAdvancedResponse

从文档中提取字段的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
Results	Results	array of FieldAdvancedValue	提取作的字段值结果
置信度分数	ConfidenceScore	double	0.0 和 1.0 之间的置信度分数，其中值 > 0.8 表示置信度高

ExtractFieldsAndTablesResponse

从文档中提取字段的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
FieldResults	FieldResults	array of FieldValue	提取作的字段值结果
TableResults	TableResults	array of TableResult	提取作产生的表值结果

ExtractFieldsResponse

从文档中提取字段的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
Results	Results	array of FieldValue	提取作的字段值结果

ExtractTablesResponse

从文档中提取表的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
TableResults	TableResults	array of TableResult	提取作产生的表值结果

ExtractTextResponse

从文档中提取文本的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
PageResults	PageResults	array of ExtractedTextPage	提取作中的页面结果

ExtractedBarcodeItem

提取的条形码结果

名称	路径	类型	说明
BarcodeType	BarcodeType	string	识别的条形码类型，可能的值为：AZTEC、CODABAR、CODE_39、CODE_93、CODE_128、DATA_MATRIX、EAN_8、EAN_13、ITF、MAXICODE、PDF_417、QR_CODE、RSS_14、RSS_EXPANDED、UPC_A、UPC_E、All_1D、UPC_EAN_EXTENSION、MSI、PLESSEY、IMB、UNKNOWN
BarcodeValue	BarcodeValue	string	条形码作为字符串的值

ExtractedTextPage

从输入文档中提取的页面

名称	路径	类型	说明
PageNumber	PageNumber	integer	页码索引，基于 1
TextResult	TextResult	string	页面的文本内容

FieldAdvancedValue

从文档中提取字段的字段值结果

名称	路径	类型	说明
字段名称	FieldName	string	字段的名称（请注意空格将替换为下划线）
FieldStringValue	FieldStringValue	string	从文档中提取的字段的字符串值

FieldValue

从文档中提取字段的字段值结果

名称	路径	类型	说明
字段名称	FieldName	string	字段的名称（请注意空格将替换为下划线）
FieldStringValue	FieldStringValue	string	从文档中提取的字段的主要或第一个字符串值
AdditionalFieldStringValues	AdditionalFieldStringValues	array of string	当同一字段存在多个值时，此字段的其他值，例如，如果同一文档中出现同一窗体的两个实例

PolicyRuleViolation

策略规则冲突的实例

名称	路径	类型	说明
规则编号	RuleId	string	规则的 ID;如果未提供 ID，则 ID 是规则的基于 1 的索引
RuleViolationRiskScore	RuleViolationRiskScore	double	风险分数介于 0.0 和 1.0 之间，其中 0.5 以上的值正在增加风险级别
RuleViolationRationale	RuleViolationRationale	string	AI 自然语言理由，说明为何违反此策略

SummarizeDocumentResponse

汇总文档的结果

名称	路径	类型	说明
成功	Successful	boolean	如果成功，则为 True;否则为 false
DocumentSummaryText	DocumentSummaryText	string	文档摘要

TableResult

从文档中提取的表

名称	路径	类型	说明
Title	Title	string	表标题（可选）
Rows	Rows	array of TableResultRow	表的行

TableResultCell

从文档中提取的表格行的单元格

名称	路径	类型	说明
CellHeader	CellHeader	string	单元格列标题
CellValue	CellValue	string	单元格值作为字符串

TableResultRow

从文档中提取的表格的行

名称	路径	类型	说明
细胞	Cells	array of TableResultCell	行中的单元格

通过

文档 AI （预览版）

Cloudmersive Document AI 连接器

先决条件

如何获取凭据

获取 API 密钥和机密

支持的作

正在创建连接

违约

限制

操作

使用 AI 从文档中提取分类或类别

参数

返回

使用 AI 从文档中提取字段值

参数

返回

使用 AI 从文档中提取所有字段和数据表

参数

返回

使用 AI 从文档中提取摘要

参数

返回

使用 AI 从文档中提取数据表

参数

返回

使用 AI 从文档中提取文本

参数

返回

使用 AI 从文档中提取条形码

参数

返回

使用 AI 作为批处理作业从文档中提取分类或类别

参数

返回

使用 AI 作为批处理作业从文档中提取所有字段和数据表

参数

返回

使用 AI 作为批处理作业从文档中提取文本

参数

返回

使用高级 AI 从文档中提取分类或类别

参数

返回

使用高级 AI 从文档中提取字段值

参数

返回

使用高级 AI 以结构化方式回答有关文档的问题

参数

返回

使用高级 AI 作为批处理作业从文档中提取字段值

参数

返回

对文档强制实施策略以允许或阻止使用高级 AI

参数

返回

获取提取文档批处理作业的状态和结果

参数

返回

定义

DocumentAdvancedClassificationResult

DocumentClassificationResult

DocumentPolicyResult

DocumentQuestionAnswerItem

DocumentQuestionAnswersResult

ExtractBarcodesAiResponse

ExtractDocumentBatchJobResult

ExtractDocumentJobStatusResult

ExtractFieldsAdvancedResponse

ExtractFieldsAndTablesResponse

ExtractFieldsResponse

ExtractTablesResponse

ExtractTextResponse

ExtractedBarcodeItem

ExtractedTextPage

FieldAdvancedValue

FieldValue

PolicyRuleViolation

SummarizeDocumentResponse

TableResult