Hành động PDF

Các tác vụ PDF cho phép bạn trích xuất hình ảnh, văn bản và bảng từ tệp PDF cũng như sắp xếp các trang để tạo tài liệu mới.

Để trích xuất văn bản từ tệp PDF, hãy sử dụng tác vụ Trích xuất văn bản từ PDF . Ví dụ sau đây trích xuất văn bản từ một phạm vi trang cụ thể của tệp được bảo vệ bằng mật khẩu. Mật khẩu được chỉ định trong cài đặt Nâng cao .

Để trích xuất văn bản được sắp xếp ở dạng bảng, hãy bật Tối ưu hóa dữ liệu có cấu trúc để cải thiện định dạng và độ chính xác của kết quả.

Ảnh chụp màn hình của tác vụ Trích xuất văn bản từ PDF.

Để trích xuất bảng từ tệp PDF, hãy triển khai hành động Trích xuất bảng từ PDF , chọn tệp và chỉ định các trang cần trích xuất.

Hành động này tạo ra biến ExtractedPDFTables có chứa danh sách thông tin bảng PDF. Để tìm thông tin về loại danh sách này, hãy truy cập Loại dữ liệu nâng cao.

Lưu ý

  • Tác vụ Trích xuất bảng từ PDF không sử dụng Nhận dạng ký tự quang học (OCR), do đó bạn không thể trích xuất văn bản không thể sao chép từ các tệp PDF được quét.
  • Thư viện đằng sau hành động này đôi khi trích xuất dữ liệu PDF bổ sung không phải là bảng. Chức năng này giảm thiểu nguy cơ vô tình bỏ sót một bảng thực.

Ảnh chụp màn hình thao tác Trích xuất bảng từ PDF.

Ngoài việc trích xuất thông tin từ tệp PDF, bạn có thể tạo tài liệu PDF mới từ tệp hiện có bằng cách sử dụng tác vụ Trích xuất các trang tệp PDF sang tệp PDF mới .

Ví dụ sau chọn sự kết hợp của các trang cụ thể và một phạm vi trang.

Ảnh chụp màn hình thao tác Trích xuất trang tệp PDF sang tệp PDF mới.

Trích xuất văn bản từ PDF

Bạn có thể trích xuất văn bản từ tệp PDF bằng cách sử dụng tác vụ "Trích xuất văn bản từ PDF". Trong thuộc tính hành động, bạn có thể xác định tệp PDF nguồn và các trang mà văn bản sẽ được trích xuất từ ​​đó. Trong thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ và liệu công cụ có nên tối ưu hóa cho dữ liệu có cấu trúc hay không.

Tham số đầu vào

Đối số Không bắt buộc Chấp nhận Giá trị mặc định Description
Tệp PDF No Tài liệu Tệp PDF để trích xuất văn bản từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản
(Các) trang cần trích xuất Không có Tất cả, Đơn, Phạm vi Tất cả Chỉ định số lượng trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi trang
Số trang đơn lẻ No Giá trị số Số của trang đơn lẻ cần trích xuất văn bản trong đó
Số trang bắt đầu No Giá trị số Số trang đầu tiên của phạm vi trang cần trích xuất văn bản trong đó
Số trang kết thúc No Giá trị số Số trang cuối cùng của phạm vi trang cần trích xuất văn bản trong đó
Mật khẩu Có Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu
Tối ưu hóa cho dữ liệu có cấu trúc Không có Giá trị Boolean Sai Xác định xem có nên phát hiện bố cục đã định dạng trong tài liệu và trích xuất văn bản cho phù hợp hay không

Đã tạo biến

Đối số Loại Description
Đã trích xuấtVăn bản PDF Giá trị văn bản Văn bản đã trích xuất

Ngoại lệ

Ngoại lệ Description
Tệp PDF không tồn tại Tệp không tồn tại trong đường dẫn đã cho
Mật khẩu không hợp lệ Mật khẩu đã cho không hợp lệ
Không trích xuất được văn bản Lỗi khi cố gắng trích xuất văn bản

Trích xuất bảng từ PDF

Bạn có thể trích xuất các bảng có trong tệp PDF bằng cách sử dụng tác vụ Trích xuất bảng từ PDF . Trong thuộc tính hành động, bạn có thể xác định tệp PDF và phạm vi trang mà bảng sẽ được trích xuất từ ​​đó. Trong thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ, xác định xem bảng có tiêu đề hay không và cuối cùng xem các bảng có lề trang chéo có nên được hợp nhất hay không.

Tham số đầu vào

Đối số Không bắt buộc Chấp nhận Giá trị mặc định Description
Tệp PDF No Tài liệu Tệp PDF để trích xuất bảng từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản
(Các) trang cần trích xuất Không có Tất cả, Đơn, Phạm vi Tất cả Chỉ định có bao nhiêu trang để trích xuất bảng: tất cả các trang, một trang duy nhất hoặc một loạt các trang
Số trang đơn lẻ No Giá trị số Số trang đơn để trích xuất bảng
Số trang bắt đầu No Giá trị số Số trang đầu tiên từ phạm vi trang để trích xuất bảng từ
Số trang kết thúc No Giá trị số Số trang cuối cùng từ phạm vi trang để trích xuất bảng
Mật khẩu Có Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu
Hợp nhất các bảng đè lên lề trang Không có Giá trị Boolean Đúng Xác định có nên hợp nhất các bảng chéo lề trang trong phạm vi trang được chỉ định hay không
Dòng đầu tiên chứa tên các cột Không có Giá trị Boolean Đúng Xác định xem dòng đầu tiên của bảng có chứa tên cột hay không

Đã tạo biến

Đối số Loại Description
Đã trích xuấtPDFBảng Danh sách thông tin bảng PDF Các bảng được trích xuất với thông tin của họ dưới dạng danh sách

Ngoại lệ

Ngoại lệ Description
Tệp PDF không tồn tại Tệp không tồn tại trong đường dẫn đã cho
Mật khẩu không hợp lệ Mật khẩu đã cho không hợp lệ
Không trích xuất được bảng Lỗi trong khi cố gắng trích xuất bảng

Trích xuất hình ảnh từ PDF

Để trích xuất hình ảnh từ tệp PDF, bạn có thể sử dụng tác vụ Trích xuất hình ảnh từ PDF . Trong các tham số hành động, bạn có thể xác định tệp PDF và các trang để trích xuất hình ảnh từ đó, quy ước đặt tên của hình ảnh được trích xuất và vị trí mục tiêu của hình ảnh đã lưu. Bạn cũng có thể xác định mật khẩu nếu tệp PDF được bảo vệ trong cài đặt nâng cao.

Tham số đầu vào

Đối số Không bắt buộc Chấp nhận Giá trị mặc định Description
Tệp PDF No Tài liệu Tệp PDF để trích xuất hình ảnh từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản
Mật khẩu Có Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu
(Các) trang cần trích xuất Không có Tất cả, Đơn, Phạm vi Tất cả Chỉ định số lượng trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi trang
Số trang đơn lẻ No Giá trị số Số của trang đơn lẻ cần trích xuất hình ảnh trong đó
Số trang bắt đầu No Giá trị số Số trang đầu tiên trong phạm vi các trang để trích xuất hình ảnh từ
Số trang kết thúc No Giá trị số Số trang cuối cùng trong phạm vi trang để trích xuất hình ảnh từ
Tên hình ảnh No Giá trị văn bản Tên của hình ảnh bắt đầu như thế nào. Ví dụ về tên hình ảnh được trích xuất: GivenName_1, GivenName_2
Lưu hình ảnh vào No Thư mục Thư mục lưu ảnh đã giải nén dưới dạng file png

Đã tạo biến

Hành động này không tạo ra bất kỳ biến nào.

Ngoại lệ

Ngoại lệ Description
Mật khẩu không hợp lệ Mật khẩu đã cho không hợp lệ
Không trích xuất được hình ảnh Cho biết đã xảy ra lỗi khi trích xuất hình ảnh từ các trang PDF nhất định
Thư mục không tồn tại Cho biết rằng thư mục không tồn tại
Tệp PDF không tồn tại Tệp không tồn tại trong đường dẫn đã cho

Trích xuất các trang của tệp PDF thành tệp PDF mới

Bạn có thể tạo tệp PDF mới bằng cách trích xuất các trang từ tệp PDF hiện có bằng cách sử dụng tác vụ trang tệp PDF thành tệp PDF mới . Trong các tham số hành động, bạn có thể xác định tệp PDF để trích xuất các trang từ đó, các trang sẽ được trích xuất, vị trí của tệp PDF mới và điều gì sẽ xảy ra nếu tệp có cùng tên và phần mở rộng đã tồn tại. Cuối cùng, trong thuộc tính nâng cao, bạn có thể xác định mật khẩu trong trường hợp nguồn PDF được bảo vệ.

Tham số đầu vào

Đối số Không bắt buộc Chấp nhận Giá trị mặc định Description
Tệp PDF No Tài liệu Tệp PDF để trích xuất các trang từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản
Mật khẩu Có Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu
Các trang được chọn No Giá trị văn bản Số chỉ mục của các trang cần giữ (ví dụ: 1,3,17-24)
Đường dẫn PDF được trích xuất No Tài liệu Đường dẫn để lưu tệp PDF đã trích xuất
Nếu tệp tồn tại Không có Ghi đè, Không ghi đè, Thêm hậu tố tuần tự Thêm hậu tố chỉ trình tự Chỉ định việc cần làm trong trường hợp tệp PDF đầu ra đã tồn tại

Đã tạo biến

Đối số Loại Description
Đã trích xuấtPDF Tài liệu Tệp PDF mới

Ngoại lệ

Ngoại lệ Description
Mật khẩu không hợp lệ Mật khẩu đã cho không hợp lệ
Tệp PDF không tồn tại Tệp không tồn tại trong đường dẫn đã cho
Trang nằm ngoài giới hạn Cho biết một hoặc nhiều trang nằm ngoài giới hạn của tệp PDF
Các trang đã chọn không hợp lệ Cho biết rằng các trang đã cho không hợp lệ đối với tệp PDF
Không thể trích xuất được bản PDF mới Cho biết đã xảy ra lỗi khi cố trích xuất tệp PDF mới

Hợp nhất các tệp PDF

Hợp nhất nhiều tệp PDF thành một tệp mới.

Bạn có thể sử dụng hành động Hợp nhất các tệp PDF để ghép hai hoặc nhiều tệp PDF và hợp nhất chúng thành một tệp duy nhất. Các tệp cần hợp nhất có thể được cung cấp dưới dạng danh sách hoặc được đặt trong dấu ngoặc kép và được phân tách bằng dấu phân cách. Bạn cũng có thể cung cấp mật khẩu cho các tệp PDF trong trường hợp chúng được bảo vệ bằng mật khẩu.

Tham số đầu vào

Đối số Không bắt buộc Chấp nhận Giá trị mặc định Description
Tệp PDF No Danh sách trong số Tệp Các tập tin để hợp nhất. Đặt nhiều tệp trong dấu ngoặc kép (") và phân tách chúng bằng dấu phân cách hoặc sử dụng danh sách tệp
Đường dẫn của PDF đã hợp nhất No Tài liệu Đường dẫn để lưu PDF đã hợp nhất
Nếu tệp tồn tại Không có Ghi đè, Không ghi đè, Thêm hậu tố tuần tự Thêm hậu tố chỉ trình tự Chỉ định việc cần làm trong trường hợp tệp đích đã tồn tại
Mật khẩu Có Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản Các mật khẩu được phân cách. Thứ tự phải giống với thứ tự của các tệp PDF đầu vào. Để trống phần này nếu tệp PDF không được bảo vệ bằng mật khẩu
Dấu tách No Giá trị văn bản . Một dấu phân cách mật khẩu tùy chỉnh. Dấu phân cách này không được là một phần của bất kỳ mật khẩu nào

Đã tạo biến

Đối số Loại Description
Đã hợp nhấtPDF Tài liệu Tệp PDF đã hợp nhất

Ngoại lệ

Ngoại lệ Description
Tệp PDF không tồn tại Tệp không tồn tại trong đường dẫn đã cho
Mật khẩu không hợp lệ Mật khẩu đã cho không hợp lệ
Không hợp nhất được các tệp PDF Cho biết rằng đã xảy ra lỗi khi hợp nhất các tệp