Примітка
Доступ до цієї сторінки потребує авторизації. Можна спробувати ввійти або змінити каталоги.
Доступ до цієї сторінки потребує авторизації. Можна спробувати змінити каталоги.
Дії PDF дають змогу витягувати зображення, текст і таблиці з PDF-файлів, а також упорядковувати сторінки для створення нових документів.
Щоб витягнути текст із PDF-файлу, скористайтеся дією «Витягнути текст із PDF ». У наведеному нижче прикладі витягується текст із певного діапазону сторінок файлу, захищеного паролем. Пароль вказується в Додаткових налаштуваннях.
Щоб витягувати тексти, упорядковані в табличній формі, увімкніть параметр Оптимізувати для структурованих даних , щоб покращити формат і точність результатів.
Щоб витягнути таблиці з PDF-файлу, розгорніть дію Витягнути таблиці з PDF , виберіть файл і вкажіть сторінки, з яких потрібно витягнути.
Дія створює змінну ExtractedPDFTables , яка містить список відомостей про PDF-таблицю. Щоб знайти відомості про цей тип списку, перейдіть до розділу Додаткові типи даних.
Нотатка
- У дії «Витягнути таблиці з PDF » не використовується оптичне розпізнавання символів (OCR), тому ви не можете витягти текст, який не можна копіювати, зі сканованих PDF-файлів.
- Бібліотека, що стоїть за дією, іноді витягує додаткові дані PDF, які не є таблицями. Такий функціонал мінімізує ризик випадкового пропуску реальної таблиці.
Окрім вилучення інформації з PDF-файлів, ви можете створити новий PDF-документ із наявного файлу за допомогою дії Витягнути сторінки PDF-файлу в новий PDF-файл.
У наведеному нижче прикладі вибирається комбінація конкретних сторінок і діапазону сторінок.
Видобути текст із PDF-файлу
Ви можете витягнути текст із PDF-файлу за допомогою дії «Витягнути текст із PDF». У властивостях дії ви можете визначити вихідний PDF-файл і сторінки, з яких слід витягти текст. У властивостях додаткових дій ви можете визначити пароль на випадок, якщо PDF-файл захищений, і чи повинен двигун оптимізувати його для структурованих даних чи ні.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення тексту. Введіть шлях до файлу, змінну, що містить файл, або текстовий шлях | |
Сторінки, які потрібно видобути | Немає | Всі, Одиночні, Діапазон | Усе | Визначає, скільки сторінок потрібно витягнути: усі сторінки, одну сторінку або діапазон сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути текст | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути текст | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути текст | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле порожнім, якщо PDF-файл не захищено паролем | |
Оптимізація для структурованих даних | Немає | Логічне значення | Ні | Укажіть, чи потрібно виявляти форматований макет у документі та відповідно видобувати текст |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ExtractedPDFText | Текстове значення | Видобутий текст |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути текст | Помилка під час спроби видобути текст |
Видобути таблиці з PDF-файлу
Ви можете витягнути таблиці, які містяться у файлі PDF, за допомогою дії Витягнути таблиці з PDF . У властивостях дії можна визначити PDF-файл і діапазон сторінок, з яких будуть витягуватися таблиці. У властивостях додаткових дій ви можете визначити пароль у випадку, якщо PDF-файл захищено, визначити, чи має таблиця заголовки чи ні, і, нарешті, чи слід об’єднувати таблиці, які перетинають поля сторінки, чи ні.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для витягування таблиць. Введіть шлях до файлу, змінну, що містить файл, або текстовий шлях | |
Сторінки, які потрібно видобути | Немає | Всі, Одиночні, Діапазон | Усе | Указує, зі скількох сторінок потрібно видобути таблиці: усіх, однієї чи діапазону сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути таблиці | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки в діапазоні сторінок, з якого потрібно видобути таблиці | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле порожнім, якщо PDF-файл не захищено паролем | |
Об’єднати таблиці, у яких поля сторінок пересікаються | Немає | Логічне значення | Так | Указує, чи потрібно об’єднувати таблиці, у яких поля сторінок пересікаються у вказаному діапазоні сторінок |
Перший рядок містить імена стовпців | Немає | Логічне значення | Так | Указує, чи містить перший рядок таблиці імена стовпців |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ВитягнутіPDFTables | Список інформації про таблицю у форматі PDF | Видобуті таблиці з інформацією у вигляді списку |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути таблиці | Помилка під час спроби видобути таблиці |
Видобути зображення з PDF-файлу
Щоб витягнути зображення з PDF-файлу, ви можете скористатися дією «Витягнути зображення з PDF ». У параметрах дії ви можете визначити PDF-файл і сторінки, з яких потрібно витягнути зображення, правила іменування витягнутих зображень і цільове розташування збережених зображень. Ви також можете визначити пароль, якщо PDF-файл захищено розширеними налаштуваннями.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення зображень. Введіть шлях до файлу, змінну, що містить файл, або текстовий шлях | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле порожнім, якщо PDF-файл не захищено паролем | |
Сторінки, які потрібно видобути | Немає | Всі, Одиночні, Діапазон | Усе | Визначає, скільки сторінок потрібно витягнути: усі сторінки, одну сторінку або діапазон сторінок |
Номер сторінки "Одна" | No | Числове значення | Номер однієї сторінки, з якої потрібно видобути зображення | |
Номер сторінки "З" | No | Числове значення | Номер першої сторінки з діапазону сторінок для вилучення зображень | |
Номер сторінки "До" | No | Числове значення | Номер останньої сторінки з діапазону сторінок для вилучення зображень | |
Назва зображень | No | Текстове значення | Як починається назва зображень. Приклад назви витягнутих зображень: GivenName_1, GivenName_2 | |
Зберегти зображення в | No | Папку | Папка для збереження витягнутих зображень у форматі png |
Змінні, які створюються
Ця дія не створює жодних змінних.
Винятки
Виняток | Опис |
---|---|
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалося видобути зображення | Вказує на те, що під час вилучення зображень із заданих сторінок PDF сталася помилка |
Папка не існує | Указує, що папка не існує |
PDF-файл не існує | Файл не існує за вказаним шляхом |
Видобути сторінки PDF-файлів у новий PDF-файл
Ви можете створити новий PDF-файл, витягнувши сторінки з існуючого PDF-файлу, використовуючи сторінки PDF-файлу для нової дії PDF-файлу . У параметрах дії ви можете визначити PDF-файл для вилучення сторінок, сторінки, які потрібно витягнути, розташування нового PDF-файлу та що має статися, якщо файл із таким самим іменем та розширенням вже існує. Нарешті, у додаткових властивостях ви можете визначити пароль на випадок, якщо вихідний PDF захищено.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
Файл PDF | No | Файл | PDF-файл для вилучення сторінок. Введіть шлях до файлу, змінну, що містить файл, або текстовий шлях | |
Пароль | Так | Пряме зашифроване введення або текстове значення | Пароль PDF-файлу. Залиште це поле порожнім, якщо PDF-файл не захищено паролем | |
Вибір сторінок | No | Текстове значення | Індексні номери сторінок, які потрібно зберегти (наприклад, 1,3,17-24) | |
Витягнутий шлях у форматі PDF | No | Файл | Шлях для збереження видобутого PDF-файлу | |
Якщо файл існує | Немає | Перезаписувати, Не перезаписувати, Додавати послідовний суфікс | Додати суфікс послідовності | Указує, що потрібно робити, якщо вихідний PDF-файл уже існує |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
ВитягнутийPDF | Файл | Новий PDF-файл |
Винятки
Виняток | Опис |
---|---|
Неприпустимий пароль | Указано неприпустимий пароль |
PDF-файл не існує | Файл не існує за вказаним шляхом |
Сторінка виходить за межі | Вказує на те, що одна або кілька сторінок виходять за межі PDF-файлу |
Неприпустимий вибір сторінок | Указує, що зазначені сторінки неприпустимі для PDF-файлу |
Не вдалося витягнути новий PDF | Указує на те, що під час спроби видобути новий PDF сталася помилка |
Об’єднати PDF-файли
Об’єднує кілька PDF-файлів у новий.
Ви можете використовувати дію «Об’єднати PDF-файли », щоб взяти два або більше PDF-файлів і об’єднати їх в один файл. Файли, що підлягають об’єднанню, можуть бути надані або у вигляді списку, або взяті в подвійні лапки і розділені роздільником. Ви також можете надати паролі для PDF-файлів, якщо вони захищені паролем.
Вхідні параметри
Аргумент | Необов'язково | Приймає | Значення за замовчуванням | Опис |
---|---|---|---|---|
PDF-файли | No | Списокфайлів | Файли, які потрібно об’єднати. Візьміть кілька файлів у подвійні лапки (") і розділіть їх роздільником, або скористайтеся списком файлів | |
Шлях до об’єднаного PDF-файлу | No | Файл | Шлях для збереження об’єднаного PDF-файлу | |
Якщо файл існує | Немає | Перезаписувати, Не перезаписувати, Додавати послідовний суфікс | Додати суфікс послідовності | Указує, що робити, якщо кінцевий файл уже існує |
Паролі | Так | Пряме зашифроване введення або текстове значення | Паролі з роздільниками. Порядок має бути таким самим, як і порядок вхідних PDF-файлів. Залиште це поле порожнім, якщо PDF-файли не захищено паролем | |
Роздільник | No | Текстове значення | , | Власний роздільник пароля. Цей роздільник не повинен бути частиною жодного з паролів |
Змінні, які створюються
Аргумент | Ввести | Опис |
---|---|---|
Об’єднаніPDF | Файл | Об’єднаний PDF-файл |
Винятки
Виняток | Опис |
---|---|
PDF-файл не існує | Файл не існує за вказаним шляхом |
Неприпустимий пароль | Указано неприпустимий пароль |
Не вдалось об’єднати PDF-файли | Указує, що сталася помилка під час спроби об’єднати файли |
Нотатка
Коли ви використовуєте дію «Об’єднати PDF-файли», не встановлюйте місце призначення об’єднаного PDF-файлу як одного з оригінальних файлів, які об’єднуються. Це може призвести до помилки виконання дії та видалення оригінального файлу. Щоб захистити оригінальні документи, завжди вибирайте нове розташування файлу або існуюче, якого немає серед оригінальних файлів, що об’єднуються для об’єднаного PDF-файлу.