营养物质 - PDF OCR

使用营养文档转换器 OCR作将扫描的文档和图像转换为可搜索的可编辑 PDF。 使用高级光学字符识别(OCR)技术从 PDF 无缝提取文本,以便编制索引、自动化和内容分析。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 政府区域
     - Azure 中国区域
     - 美国国防部(DoD)
Power Apps 高级 除以下各项外的所有 Power Apps 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
Power Automate 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
联系人​​
Name 营养(前穆希姆比)支持
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
连接器元数据
发布者 穆希姆比交易作为营养物质
网站 https://www.nutrient.io/low-code/
隐私策略 https://www.nutrient.io/legal/privacy/
类别 协作;内容和文件

对图像和扫描的文档执行 OCR

使用营养文档转换器通过 REST API 或自承载服务器库对图像和扫描的文件运行光学字符识别(OCR)。

OCR 功能

  • 将图像、扫描和传真转换为可搜索的 PDF。
  • 生成用于文本提取和 PDF 可搜索性的自动化文档工作流。

集成选项

将 OCR 功能与首选语言中的代码示例集成:

先决条件

若要使用营养文档转换器,需要一个 免费试用 帐户。 请参阅 比较指南 ,了解这些帐户类型之间的差异。

入门指南

按照以下步骤开始使用营养文档转换器连接器:

已知问题和限制

由于安全限制,无法处理受 IRM、DRM、RMS 或 AIP 解决方案 保护的文档。

有关问题或帮助,请联系 我们的支持团队

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

使用 OCR 提取文本

使用 OCR 从 PDF 文件中提取文本

转换为 OCRed PDF

对现有 PDF 文档或图像执行 OCR 以创建可搜索的 PDF

使用 OCR 提取文本

使用 OCR 从 PDF 文件中提取文本

参数

名称 密钥 必需 类型 说明
源文件名称
source_file_name True string

源文件的名称,包括扩展名

源文件内容
source_file_content True byte

文件内容到 OCR

语言
language enum

语言

X 坐标
x string

X 坐标(以 Pts 为单位,1/72 英寸)

Y 坐标
y string

Y 坐标(以磅为单位,1/72 英寸)

宽度
width string

OCR 区域的宽度(以 Pts 为单位,1/72 英寸)

高度
height string

OCR 区域的高度(在 Pts 中,1/72 英寸)

页码
page_number string

页码(将空白保留至 OCR 所有页面)

Performance
performance enum

性能()

黑名单/允许列表
characters_option enum

“字符”选项

字符数
characters string

将字符加入黑名单或允许列表

使用分页
paginate boolean

标页数

出错导致失败
fail_on_error boolean

出错导致失败

返回

OCRText作的响应数据

转换为 OCRed PDF

对现有 PDF 文档或图像执行 OCR 以创建可搜索的 PDF

参数

名称 密钥 必需 类型 说明
源文件名称
source_file_name True string

源文件的名称,包括扩展名

源文件内容
source_file_content True byte

文件内容到 OCR

语言
language enum

语言

Performance
performance enum

Performance

黑名单/允许列表
characters_option enum

“字符”选项

字符数
characters string

将字符加入黑名单或允许列表

使用分页
paginate boolean

标页数

区域
regions string

将区域限制为 OCR 到一个或多个特定区域

出错导致失败
fail_on_error boolean

出错导致失败

返回

所有作的响应数据

定义

ocr_operation_response

OCRText作的响应数据

名称 路径 类型 说明
Out text
out_text string

以纯文本提取的 OCRed 文本。

基文件名
base_file_name string

没有扩展名的输入文件的名称。

结果代码
result_code enum

作结果代码。

结果详细信息
result_details string

作结果详细信息。

operation_response

所有作的响应数据

名称 路径 类型 说明
处理的文件内容
processed_file_content byte

Muhimbi 转换器生成的文件。

基文件名
base_file_name string

没有扩展名的输入文件的名称。

结果代码
result_code enum

作结果代码。

结果详细信息
result_details string

作结果详细信息。