Hành động PDF
Các tác vụ PDF cho phép bạn trích xuất hình ảnh, văn bản và bảng từ tệp PDF cũng như sắp xếp các trang để tạo tài liệu mới.
Để trích xuất văn bản từ tệp PDF, hãy sử dụng tác vụ Trích xuất văn bản từ PDF . Ví dụ sau đây trích xuất văn bản từ một phạm vi trang cụ thể của tệp được bảo vệ bằng mật khẩu. Mật khẩu được chỉ định trong cài đặt Nâng cao .
Để trích xuất văn bản được sắp xếp ở dạng bảng, hãy bật Tối ưu hóa dữ liệu có cấu trúc để cải thiện định dạng và độ chính xác của kết quả.
Để trích xuất bảng từ tệp PDF, hãy triển khai hành động Trích xuất bảng từ PDF , chọn tệp và chỉ định các trang cần trích xuất.
Hành động này tạo ra biến ExtractedPDFTables có chứa danh sách thông tin bảng PDF. Để tìm thông tin về loại danh sách này, hãy truy cập Loại dữ liệu nâng cao.
Lưu ý
- Tác vụ Trích xuất bảng từ PDF không sử dụng Nhận dạng ký tự quang học (OCR), do đó bạn không thể trích xuất văn bản không thể sao chép từ các tệp PDF được quét.
- Thư viện đằng sau hành động này đôi khi trích xuất dữ liệu PDF bổ sung không phải là bảng. Chức năng này giảm thiểu nguy cơ vô tình bỏ sót một bảng thực.
Ngoài việc trích xuất thông tin từ tệp PDF, bạn có thể tạo tài liệu PDF mới từ tệp hiện có bằng cách sử dụng tác vụ Trích xuất các trang tệp PDF sang tệp PDF mới .
Ví dụ sau chọn sự kết hợp của các trang cụ thể và một phạm vi trang.
Trích xuất văn bản từ PDF
Bạn có thể trích xuất văn bản từ tệp PDF bằng cách sử dụng tác vụ "Trích xuất văn bản từ PDF". Trong thuộc tính hành động, bạn có thể xác định tệp PDF nguồn và các trang mà văn bản sẽ được trích xuất từ đó. Trong thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ và liệu công cụ có nên tối ưu hóa cho dữ liệu có cấu trúc hay không.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất văn bản từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định số lượng trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi trang |
Số trang đơn lẻ | No | Giá trị số | Số của trang đơn lẻ cần trích xuất văn bản trong đó | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên của phạm vi trang cần trích xuất văn bản trong đó | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng của phạm vi trang cần trích xuất văn bản trong đó | |
Mật khẩu | Có | Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu | |
Tối ưu hóa cho dữ liệu có cấu trúc | Không có | Giá trị Boolean | Sai | Xác định xem có nên phát hiện bố cục đã định dạng trong tài liệu và trích xuất văn bản cho phù hợp hay không |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Đã trích xuấtVăn bản PDF | Giá trị văn bản | Văn bản đã trích xuất |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được văn bản | Lỗi khi cố gắng trích xuất văn bản |
Trích xuất bảng từ PDF
Bạn có thể trích xuất các bảng có trong tệp PDF bằng cách sử dụng tác vụ Trích xuất bảng từ PDF . Trong thuộc tính hành động, bạn có thể xác định tệp PDF và phạm vi trang mà bảng sẽ được trích xuất từ đó. Trong thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ, xác định xem bảng có tiêu đề hay không và cuối cùng xem các bảng có lề trang chéo có nên được hợp nhất hay không.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất bảng từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định có bao nhiêu trang để trích xuất bảng: tất cả các trang, một trang duy nhất hoặc một loạt các trang |
Số trang đơn lẻ | No | Giá trị số | Số trang đơn để trích xuất bảng | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên từ phạm vi trang để trích xuất bảng từ | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng từ phạm vi trang để trích xuất bảng | |
Mật khẩu | Có | Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu | |
Hợp nhất các bảng đè lên lề trang | Không có | Giá trị Boolean | Đúng | Xác định có nên hợp nhất các bảng chéo lề trang trong phạm vi trang được chỉ định hay không |
Dòng đầu tiên chứa tên các cột | Không có | Giá trị Boolean | Đúng | Xác định xem dòng đầu tiên của bảng có chứa tên cột hay không |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Đã trích xuấtPDFBảng | Danh sách thông tin bảng PDF | Các bảng được trích xuất với thông tin của họ dưới dạng danh sách |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được bảng | Lỗi trong khi cố gắng trích xuất bảng |
Trích xuất hình ảnh từ PDF
Để trích xuất hình ảnh từ tệp PDF, bạn có thể sử dụng tác vụ Trích xuất hình ảnh từ PDF . Trong các tham số hành động, bạn có thể xác định tệp PDF và các trang để trích xuất hình ảnh từ đó, quy ước đặt tên của hình ảnh được trích xuất và vị trí mục tiêu của hình ảnh đã lưu. Bạn cũng có thể xác định mật khẩu nếu tệp PDF được bảo vệ trong cài đặt nâng cao.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất hình ảnh từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
Mật khẩu | Có | Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định số lượng trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi trang |
Số trang đơn lẻ | No | Giá trị số | Số của trang đơn lẻ cần trích xuất hình ảnh trong đó | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên trong phạm vi các trang để trích xuất hình ảnh từ | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng trong phạm vi trang để trích xuất hình ảnh từ | |
Tên hình ảnh | No | Giá trị văn bản | Tên của hình ảnh bắt đầu như thế nào. Ví dụ về tên hình ảnh được trích xuất: GivenName_1, GivenName_2 | |
Lưu hình ảnh vào | No | Thư mục | Thư mục lưu ảnh đã giải nén dưới dạng file png |
Đã tạo biến
Hành động này không tạo ra bất kỳ biến nào.
Ngoại lệ
Ngoại lệ | Description |
---|---|
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được hình ảnh | Cho biết đã xảy ra lỗi khi trích xuất hình ảnh từ các trang PDF nhất định |
Thư mục không tồn tại | Cho biết rằng thư mục không tồn tại |
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Trích xuất các trang của tệp PDF thành tệp PDF mới
Bạn có thể tạo tệp PDF mới bằng cách trích xuất các trang từ tệp PDF hiện có bằng cách sử dụng tác vụ trang tệp PDF thành tệp PDF mới . Trong các tham số hành động, bạn có thể xác định tệp PDF để trích xuất các trang từ đó, các trang sẽ được trích xuất, vị trí của tệp PDF mới và điều gì sẽ xảy ra nếu tệp có cùng tên và phần mở rộng đã tồn tại. Cuối cùng, trong thuộc tính nâng cao, bạn có thể xác định mật khẩu trong trường hợp nguồn PDF được bảo vệ.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất các trang từ đó. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
Mật khẩu | Có | Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống phần này nếu PDF không được bảo vệ bằng mật khẩu | |
Các trang được chọn | No | Giá trị văn bản | Số chỉ mục của các trang cần giữ (ví dụ: 1,3,17-24) | |
Đường dẫn PDF được trích xuất | No | Tài liệu | Đường dẫn để lưu tệp PDF đã trích xuất | |
Nếu tệp tồn tại | Không có | Ghi đè, Không ghi đè, Thêm hậu tố tuần tự | Thêm hậu tố chỉ trình tự | Chỉ định việc cần làm trong trường hợp tệp PDF đầu ra đã tồn tại |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Đã trích xuấtPDF | Tài liệu | Tệp PDF mới |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Trang nằm ngoài giới hạn | Cho biết một hoặc nhiều trang nằm ngoài giới hạn của tệp PDF |
Các trang đã chọn không hợp lệ | Cho biết rằng các trang đã cho không hợp lệ đối với tệp PDF |
Không thể trích xuất được bản PDF mới | Cho biết đã xảy ra lỗi khi cố trích xuất tệp PDF mới |
Hợp nhất các tệp PDF
Hợp nhất nhiều tệp PDF thành một tệp mới.
Bạn có thể sử dụng hành động Hợp nhất các tệp PDF để ghép hai hoặc nhiều tệp PDF và hợp nhất chúng thành một tệp duy nhất. Các tệp cần hợp nhất có thể được cung cấp dưới dạng danh sách hoặc được đặt trong dấu ngoặc kép và được phân tách bằng dấu phân cách. Bạn cũng có thể cung cấp mật khẩu cho các tệp PDF trong trường hợp chúng được bảo vệ bằng mật khẩu.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Danh sách trong số Tệp | Các tập tin để hợp nhất. Đặt nhiều tệp trong dấu ngoặc kép (") và phân tách chúng bằng dấu phân cách hoặc sử dụng danh sách tệp | |
Đường dẫn của PDF đã hợp nhất | No | Tài liệu | Đường dẫn để lưu PDF đã hợp nhất | |
Nếu tệp tồn tại | Không có | Ghi đè, Không ghi đè, Thêm hậu tố tuần tự | Thêm hậu tố chỉ trình tự | Chỉ định việc cần làm trong trường hợp tệp đích đã tồn tại |
Mật khẩu | Có | Dữ liệu nhập được mã hóa trực tiếp hoặc Giá trị văn bản | Các mật khẩu được phân cách. Thứ tự phải giống với thứ tự của các tệp PDF đầu vào. Để trống phần này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
Dấu tách | No | Giá trị văn bản | . | Một dấu phân cách mật khẩu tùy chỉnh. Dấu phân cách này không được là một phần của bất kỳ mật khẩu nào |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Đã hợp nhấtPDF | Tài liệu | Tệp PDF đã hợp nhất |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không hợp nhất được các tệp PDF | Cho biết rằng đã xảy ra lỗi khi hợp nhất các tệp |