PDF 操作

PDF 操作使您能够从 PDF 文件中提取图像、文本和表,并排列页面以创建新文档。

要从 PDF 文件中提取文本,请使用从 PDF 提取文本操作。 以下示例从受密码保护的文件的特定页面范围中提取文本。 密码在高级设置中指定。

要提取以表格形式排列的文本,请启用针对结构化数据进行优化以改进结果的格式和准确性。

“从 PDF 提取文本”操作的屏幕截图。

要从 PDF 文件中提取表,请部署从 PDF 中提取表操作,选择文件,然后指定要从中提取的页面。

此操作会生成一个 ExtractedPDFTables 变量,其中包含 PDF 表信息列表。 若要查找关于此类列表的信息,请转到高级数据类型

备注

  • 从 PDF 提取表操作不使用光学字符识别 (OCR),因此您无法从扫描的 PDF 中提取不可复制的文本。
  • 此操作背后的库偶尔会提取不是表的其他 PDF 数据。 此功能将意外遗漏实际表的风险降至最低。

“从 PDF 提取表”操作的屏幕截图。

除了从 PDF 文件中提取信息外,您还可以使用将 PDF 文件页面提取到新的 PDF 文件中操作从现有文件创建新的 PDF 文档。

以下示例选择特定页面和一系列页面的组合。

“将 PDF 文件页面提取到新的 PDF 文件中”操作的屏幕截图。

从 PDF 提取文本

要从 PDF 文件中提取文本,请使用“从 PDF 提取文本”操作。 在操作属性中,您可以定义源 PDF 文件和从中提取文本的页面。 在高级操作属性下,您可以定义密码,以防 PDF 文件受到保护,以及引擎是否应该针对结构化数据进行优化。

输入参数

参数 可选 接受 默认值 说明
PDF file 文件 要从中提取文本的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量
要提取的页面 不可用 所有、单个、范围 所有 指定要提取的页数: 所有页面、单个页面或许多页面
Single page number 数值 要从中提取文本的单个页面的页码
From page number 数值 要从中提取文本的页面范围内的第一个页码
To page number 数值 要从中提取文本的页面范围内的最后一个页码
密码 直接加密的输入或文本值 PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空
针对结构化数据进行优化 不可用 布尔值 错误 指定是否检测文档中的格式化布局并相应地提取文本

生成的变量

参数 类型​​ 说明
ExtractedPDFText 文本值 已提取的文本

异常

例外 描述
PDF 文件不存在 给定路径中不存在文件
密码无效 给定密码无效
无法提取文本 尝试提取文本时出错

从 PDF 中提取表

您可以使用从 PDF 中提取表格操作来提取 PDF 文件中包含的表。 在操作属性中,您可以定义 PDF 文件以及从中提取表的页面范围。 在“高级操作属性”下,您可以定义密码以防 PDF 文件受到保护,定义表是否有标题,以及最后是否应该合并跨页边距的表。

输入参数

参数 可选 接受 默认值 说明
PDF 文件 文件 要从中提取表的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量
要提取的页面 不可用 所有、单个、范围 所有 指定要从中提取表的页数:所有页面、单个页面或一系列页面
单个页码 数值 要从其中提取表的单个页面的页码
起始页码 数值 要从中提取表的页面范围中的第一个页码
终止页码 数值 要从中提取表的页面范围中的最后一个页码
密码 直接加密的输入或文本值 PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空
合并跨页边距的表 不可用 布尔值 True 指定是否合并指定页面范围中跨页边距的表
第一行包含列名称 不可用 布尔值 True 指定表的第一行是否包含列名称

生成的变量

参数 类型​​ 说明
ExtractedPDFTables PDF 表信息列表 包含列表式信息的提取表

异常

例外 说明
PDF 文件不存在 给定路径中不存在文件
密码无效 给定密码无效
无法提取表 尝试提取表时出错

从 PDF 提取图像

要从 PDF 文件中提取图像,您可以使用从 PDF 中提取图像操作。 在操作参数中,您可以定义 PDF 文件和从中提取图像的页面、提取图像的命名约定以及保存图像的目标位置。 如果 PDF 文件在高级设置下受保护,您也可以定义密码。

输入参数

参数 可选 接受 默认值 说明
PDF file 文件 要从中提取图像的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量
密码 直接加密的输入或文本值 PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空
Page(s) to extract 不适用 所有、单个、范围 所有 指定要提取的页数: 所有页面、单个页面或许多页面
Single page number 数值 要从中提取图像的单个页面的页码
From page number 数值 要从中提取图像的页面范围中的第一个页码
To page number 数值 要从中提取图像的页面范围内的最后一个页码
Image(s) name 文本值 图像名称的开头方式。 取图像的名称示例:GivenName_1、GivenName_2
Save image(s) to 文件夹 将提取的图像保存为 png 文件的文件夹

生成的变量

此操作不会生成任何变量。

异常

例外 说明
密码无效 给定密码无效
无法提取图像 指示从 PDF 的给定页面中提取图像时出错
文件夹不存在 指示文件夹不存在
PDF 文件不存在 给定路径中不存在文件

将 PDF 文件页面提取到新的 PDF 文件中

您可以通过使用 PDF 文件页面到新 PDF 文件操作从现有 PDF 文件中提取页面来创建新的 PDF 文件。 在操作参数中,您可以定义要从中提取页面的 PDF 文件、要提取的页面、新 PDF 文件的位置,以及如果已经存在具有相同名称和扩展名的文件时应该如何处理。 最后,在高级属性下,您可以定义一个密码,以防源 PDF 受到保护。

输入参数

参数 可选 接受 默认值 说明
PDF file 文件 要从中提取页面的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量
密码 直接加密的输入或文本值 PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空
Page selection 文本值 要保留的页面的索引号(例如,1、3、17-24)
Extracted PDF path 文件 存储已提取的 PDF 文件的路径
If file exists 不适用 覆盖、不覆盖、添加顺序后缀 添加顺序后缀 指定输出 PDF 文件已存在时应执行的操作

生成的变量

参数 类型​​ 说明
ExtractedPDF 文件 新的 PDF 文件

异常

例外 描述
密码无效 给定密码无效
PDF 文件不存在 给定路径中不存在文件
页面超出边界 指示一个或多个页面超出 PDF 文件的边界
页面选择无效 指示给定页面对 PDF 文件无效
无法提取新的 PDF 指示尝试提取新的 PDF 时出错

合并 PDF 文件

将多个 PDF 文件合并为一个新文件。

您可以使用合并 PDF 文件操作将两个或更多 PDF 文件合并成一个文件。 要合并的文件可以以列表的形式提供,也可以用双引号括起来并用分隔符隔开。 您也可以为 PDF 文件提供密码,以防它们受密码保护。

输入参数

参数 可选 接受 默认值 说明
PDF files 文件列表 要合并的文件。 将多个文件用双引号 (") 括起来并用分隔符进行区分,或使用文件列表
Merged PDF path 文件 存储合并的 PDF 文件的路径
If file exists 不适用 覆盖、不覆盖、添加顺序后缀 添加顺序后缀 指定目标文件已存在时应执行的操作
密码 直接加密的输入或文本值 带分隔符的密码。 顺序应与输入的 PDF 的顺序相同。 如果 PDF 未采用密码保护,请将此留空
分隔符 文本值 , 自定义密码分隔符。 此分隔符不应存在于任何密码中

生成的变量

参数 类型​​ 说明
MergedPDF 文件 合并的 PDF 文件

异常

例外 描述
PDF 文件不存在 给定路径中不存在文件
密码无效 给定密码无效
无法合并 PDF 文件 指示合并文件时出错