Lưu ý
Cần có ủy quyền mới truy nhập được vào trang này. Bạn có thể thử đăng nhập hoặc thay đổi thư mục.
Cần có ủy quyền mới truy nhập được vào trang này. Bạn có thể thử thay đổi thư mục.
Các thao tác PDF cho phép bạn trích xuất hình ảnh, văn bản và bảng từ các tệp PDF và sắp xếp các trang để tạo tài liệu mới.
Để trích xuất văn bản từ tệp PDF, hãy sử dụng thao tác Trích xuất văn bản từ PDF . Ví dụ sau đây trích xuất văn bản từ một phạm vi trang cụ thể của một tệp được bảo vệ bằng mật khẩu. Mật khẩu được chỉ định trong phần cài đặt Nâng cao .
Để trích xuất các văn bản được sắp xếp theo dạng bảng, hãy bật Tối ưu hóa cho dữ liệu có cấu trúc để cải thiện định dạng và độ chính xác của kết quả.
Để trích xuất bảng từ tệp PDF, hãy triển khai hành động Trích xuất bảng từ tệp PDF , chọn tệp và chỉ định các trang để trích xuất.
Hành động này tạo ra biến ExtractedPDFTables chứa danh sách thông tin bảng PDF. Để tìm thông tin về loại danh sách này, hãy truy cập Kiểu dữ liệu nâng cao.
Lưu ý
- Hành động Trích xuất bảng từ PDF không sử dụng Nhận dạng ký tự quang học (OCR), do đó bạn không thể trích xuất văn bản không thể sao chép từ các tệp PDF được quét.
- Thư viện đằng sau hành động này đôi khi trích xuất dữ liệu PDF bổ sung không phải là bảng. Chức năng này giảm thiểu rủi ro vô tình bỏ sót một bảng thực tế.
Ngoài việc trích xuất thông tin từ các tệp PDF, bạn có thể tạo một tài liệu PDF mới từ một tệp hiện có bằng cách sử dụng thao tác Trích xuất các trang tệp PDF thành tệp PDF mới .
Ví dụ sau đây chọn kết hợp các trang cụ thể và một loạt trang.
Trích xuất văn bản từ PDF
Bạn có thể trích xuất văn bản từ tệp PDF bằng cách sử dụng thao tác "Trích xuất văn bản từ PDF". Trong thuộc tính hành động, bạn có thể xác định tệp PDF nguồn và các trang mà văn bản sẽ được trích xuất. Trong phần thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ và liệu công cụ tìm kiếm có nên tối ưu hóa cho dữ liệu có cấu trúc hay không.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất văn bản. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định số trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi các trang |
Số trang đơn lẻ | No | Giá trị số | Số của trang đơn lẻ cần trích xuất văn bản trong đó | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên của phạm vi trang cần trích xuất văn bản trong đó | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng của phạm vi trang cần trích xuất văn bản trong đó | |
Mật khẩu | Có | Đầu vào được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống mục này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
Tối ưu hóa cho dữ liệu có cấu trúc | Không có | Giá trị Boolean | Sai | Xác định xem có nên phát hiện bố cục đã định dạng trong tài liệu và trích xuất văn bản cho phù hợp hay không |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Trích xuấtPDFText | Giá trị văn bản | Văn bản đã trích xuất |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được văn bản | Lỗi khi cố gắng trích xuất văn bản |
Trích xuất bảng từ PDF
Bạn có thể trích xuất các bảng có trong tệp PDF bằng cách sử dụng thao tác Trích xuất bảng từ PDF . Trong thuộc tính hành động, bạn có thể xác định tệp PDF và phạm vi trang mà các bảng sẽ được trích xuất. Trong phần thuộc tính hành động nâng cao, bạn có thể xác định mật khẩu trong trường hợp tệp PDF được bảo vệ, xác định xem bảng có tiêu đề hay không và cuối cùng là xác định xem các bảng nằm ngoài lề trang có nên được hợp nhất hay không.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất bảng. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định có bao nhiêu trang để trích xuất bảng: tất cả các trang, một trang duy nhất hoặc một loạt các trang |
Số trang đơn lẻ | No | Giá trị số | Số trang đơn để trích xuất bảng | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên từ phạm vi trang để trích xuất bảng từ | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng từ phạm vi trang để trích xuất bảng | |
Mật khẩu | Có | Đầu vào được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống mục này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
Hợp nhất các bảng đè lên lề trang | Không có | Giá trị Boolean | Đúng | Xác định có nên hợp nhất các bảng chéo lề trang trong phạm vi trang được chỉ định hay không |
Dòng đầu tiên chứa tên các cột | Không có | Giá trị Boolean | Đúng | Xác định xem dòng đầu tiên của bảng có chứa tên cột hay không |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Bảng PDF được trích xuất | Danh sách thông tin bảng PDF | Các bảng được trích xuất với thông tin của họ dưới dạng danh sách |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được bảng | Lỗi trong khi cố gắng trích xuất bảng |
Trích xuất hình ảnh từ PDF
Để trích xuất hình ảnh từ tệp PDF, bạn có thể sử dụng thao tác Trích xuất hình ảnh từ PDF . Trong các tham số hành động, bạn có thể xác định tệp PDF và các trang để trích xuất hình ảnh, quy ước đặt tên cho hình ảnh được trích xuất và vị trí đích của hình ảnh đã lưu. Bạn cũng có thể đặt mật khẩu nếu tệp PDF được bảo vệ theo cài đặt nâng cao.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất hình ảnh. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
Mật khẩu | Có | Đầu vào được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống mục này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
(Các) trang cần trích xuất | Không có | Tất cả, Đơn, Phạm vi | Tất cả | Chỉ định số trang cần trích xuất: Tất cả các trang, một trang hoặc một phạm vi các trang |
Số trang đơn lẻ | No | Giá trị số | Số của trang đơn lẻ cần trích xuất hình ảnh trong đó | |
Số trang bắt đầu | No | Giá trị số | Số trang đầu tiên trong phạm vi các trang để trích xuất hình ảnh | |
Số trang kết thúc | No | Giá trị số | Số trang cuối cùng trong phạm vi các trang để trích xuất hình ảnh | |
Tên hình ảnh | No | Giá trị văn bản | Tên của hình ảnh bắt đầu như thế nào. Ví dụ tên hình ảnh được trích xuất: GivenName_1, GivenName_2 | |
Lưu hình ảnh vào | No | Thư mục | Thư mục lưu trữ hình ảnh đã trích xuất dưới dạng tệp png |
Đã tạo biến
Hành động này không tạo ra bất kỳ biến nào.
Ngoại lệ
Ngoại lệ | Description |
---|---|
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không trích xuất được hình ảnh | Chỉ ra rằng đã xảy ra lỗi khi trích xuất hình ảnh từ các trang nhất định của PDF |
Thư mục không tồn tại | Cho biết rằng thư mục không tồn tại |
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Trích xuất các trang của tệp PDF thành tệp PDF mới
Bạn có thể tạo tệp PDF mới bằng cách trích xuất các trang từ tệp PDF hiện có bằng cách sử dụng thao tác chuyển các trang tệp PDF sang tệp PDF mới . Trong các tham số hành động, bạn có thể xác định tệp PDF cần trích xuất các trang, các trang cần trích xuất, vị trí của tệp PDF mới và điều gì sẽ xảy ra nếu đã tồn tại một tệp có cùng tên và phần mở rộng. Cuối cùng, trong phần thuộc tính nâng cao, bạn có thể định nghĩa mật khẩu trong trường hợp tệp PDF nguồn được bảo vệ.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Tài liệu | Tệp PDF để trích xuất các trang. Nhập đường dẫn tệp, biến chứa tệp hoặc đường dẫn văn bản | |
Mật khẩu | Có | Đầu vào được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu của tập tin PDF. Để trống mục này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
Các trang được chọn | No | Giá trị văn bản | Số chỉ mục của các trang cần giữ lại (ví dụ: 1,3,17-24) | |
Đường dẫn PDF đã trích xuất | No | Tài liệu | Đường dẫn để lưu tệp PDF đã trích xuất | |
Nếu tệp tồn tại | Không có | Ghi đè, Không ghi đè, Thêm hậu tố tuần tự | Thêm hậu tố chỉ trình tự | Chỉ định việc cần làm trong trường hợp tệp PDF đầu ra đã tồn tại |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Trích xuấtPDF | Tài liệu | Tệp PDF mới |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Trang nằm ngoài giới hạn | Chỉ ra rằng một hoặc nhiều trang nằm ngoài giới hạn của tệp PDF |
Các trang đã chọn không hợp lệ | Cho biết rằng các trang đã cho không hợp lệ đối với tệp PDF |
Không thể trích xuất PDF mới | Chỉ ra rằng đã xảy ra lỗi khi cố gắng trích xuất PDF mới |
Hợp nhất các tệp PDF
Hợp nhất nhiều tệp PDF thành một tệp mới.
Bạn có thể sử dụng thao tác Gộp các tệp PDF để lấy hai hoặc nhiều tệp PDF và ghép chúng thành một tệp duy nhất. Các tập tin cần được hợp nhất có thể được cung cấp dưới dạng danh sách hoặc được đặt trong dấu ngoặc kép và phân tách bằng dấu phân cách. Bạn cũng có thể cung cấp mật khẩu cho các tệp PDF, trong trường hợp chúng được bảo vệ bằng mật khẩu.
Tham số đầu vào
Đối số | Không bắt buộc | Chấp nhận | Giá trị mặc định | Description |
---|---|---|---|---|
Tệp PDF | No | Danh sách các tệp | Các tập tin cần hợp nhất. Đặt nhiều tệp trong dấu ngoặc kép (") và phân tách chúng bằng dấu phân cách hoặc sử dụng danh sách tệp | |
Đường dẫn của PDF đã hợp nhất | No | Tài liệu | Đường dẫn để lưu PDF đã hợp nhất | |
Nếu tệp tồn tại | Không có | Ghi đè, Không ghi đè, Thêm hậu tố tuần tự | Thêm hậu tố chỉ trình tự | Chỉ định việc cần làm trong trường hợp tệp đích đã tồn tại |
Mật khẩu | Có | Đầu vào được mã hóa trực tiếp hoặc Giá trị văn bản | Mật khẩu được phân định. Thứ tự phải giống với thứ tự của các tệp PDF đầu vào. Để trống mục này nếu tệp PDF không được bảo vệ bằng mật khẩu | |
Dấu tách | No | Giá trị văn bản | . | Một dấu phân cách mật khẩu tùy chỉnh. Dấu phân cách này không nên là một phần của bất kỳ mật khẩu nào |
Đã tạo biến
Đối số | Loại | Description |
---|---|---|
Đã hợp nhấtPDF | Tài liệu | Tệp PDF đã hợp nhất |
Ngoại lệ
Ngoại lệ | Description |
---|---|
Tệp PDF không tồn tại | Tệp không tồn tại trong đường dẫn đã cho |
Mật khẩu không hợp lệ | Mật khẩu đã cho không hợp lệ |
Không hợp nhất được các tệp PDF | Cho biết rằng đã xảy ra lỗi khi hợp nhất các tệp |
Lưu ý
Khi bạn sử dụng thao tác "Gộp các tệp PDF", đừng đặt đích đến của tệp PDF đã ghép là một trong các tệp gốc đang được ghép. Điều này có thể khiến hành động không thành công và có thể xóa tệp gốc. Để bảo vệ tài liệu gốc, hãy luôn chọn một vị trí tệp mới hoặc một vị trí hiện có không nằm trong số các tệp gốc đang được hợp nhất để xuất ra tệp PDF đã hợp nhất.