Akce PDF
Akce PDF umožňují extrahovat obrázky, text a tabulky ze souborů PDF a uspořádat stránky pro vytvoření nových dokumentů.
Chcete-li extrahovat text ze souboru PDF, použijte akci Extrahovat text z PDF. V následujícím příkladu se extrahuje text z určitého rozsahu stránek souboru chráněného heslem. Heslo je specifikováno v nastavení Pokročilé.
Pokud chcete extrahovat texty uspořádané do tabulkové formy, zapněte Optimalizovat pro strukturovaná data pro zlepšení formátu a přesnosti výsledků.
Chcete-li extrahovat tabulky ze souboru PDF, nasaďte akci Extrahovat tabulky z PDF, vyberte soubor a určete stránky, ze kterých chcete extrahovat.
Akce vytvoří proměnnou ExtractedPDFTables, která obsahuje seznam informací o tabulce PDF. Chcete-li najít informace o tomto typu seznamu, přejděte na Pokročilé datové typy.
Poznámka:
- Akce Extrahovat tabulky z PDF nepoužívá optické rozpoznávání znaků (OCR), takže z naskenovaných PDF nemůžete extrahovat nekopírovatelný text.
- Knihovna za akcí příležitostně extrahuje další data PDF, která nejsou tabulkami. Tato funkce minimalizuje riziko náhodného vynechání skutečné tabulky.
Kromě extrahování informací ze souborů PDF můžete vytvořit nový dokument PDF z existujícího souboru pomocí akce Extrahovat stránky souboru PDF do nového souboru PDF.
Následující příklad vybere kombinaci konkrétních stránek a rozsahu stránek.
Extrahovat text z PDF
Můžete extrahovat text ze souboru PDF pomocí akce „Extrahovat text z PDF“. Ve vlastnostech akce můžete definovat zdrojový soubor PDF a stránky, ze kterých má být text extrahován. V pokročilých vlastnostech akce můžete definovat heslo pro případ, že je soubor PDF chráněn a zda se má modul optimalizovat pro strukturovaná data či nikoli.
Vstupní parametry
Argument | Volitelné | Přijímá | Výchozí hodnota | Description |
---|---|---|---|---|
PDF file | Ne | Soubor | Soubor PDF k extrakci textu. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu. | |
Page(s) to extract | – | Vše, Single, Range | Všechny | Určuje, kolik stránek se má extrahovat: všechny stránky, jedna stránka nebo rozsah stránek |
Single page number | Ne | Číselná hodnota | Číslo jedné stránky, ze které se má extrahovat text | |
From page number | Ne | Číselná hodnota | První číslo stránky z rozsahu stránek, ze kterých se má extrahovat text | |
To page number | Ne | Číselná hodnota | Poslední číslo stránky z rozsahu stránek, ze kterých se má extrahovat text | |
Password | Ano | Přímé zadání šifrovaného textu nebo textové hodnoty | Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné. | |
Optimalizace pro strukturovaná data | – | Logická hodnota | False | Určete, zda se má v dokumentu rozpoznat formátované rozvržení a odpovídajícím způsobem extrahovat text |
Vytvořené proměnné
Argument | Type | Description |
---|---|---|
ExtractedPDFText | Textová hodnota | Extrahovaný text |
Výjimky
Výjimka | Popis |
---|---|
Soubor PDF neexistuje | Soubor v dané cestě neexistuje |
Neplatné heslo | Zadané heslo je neplatné |
Nepodařilo se extrahovat text | Při pokusu o extrahování textu došlo k chybě |
Extrahovat tabulky ze souboru PDF
Tabulky, které jsou obsaženy v souboru PDF, můžete extrahovat pomocí akce Extrahovat tabulky z PDF. Ve vlastnostech akce můžete definovat zdrojový soubor PDF a rozsah stránek, ze kterých budou tabulky extrahovány. V pokročilých vlastnostech akce můžete definovat heslo pro případ, že je soubor PDF chráněn, definovat, zda má tabulka záhlaví nebo ne, a nakonec, zda mají být tabulky, které překračují okraje stránky, sloučeny nebo ne.
Vstupní parametry
Argument | Volitelné | Přijímá | Výchozí hodnota | Description |
---|---|---|---|---|
PDF file | Ne | Soubor | Soubor PDF, ze kterého se mají extrahovat tabulky. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu. | |
Page(s) to extract | – | Vše, Single, Range | Všechny | Určuje, z kolika stránek se mají extrahovat tabulky: všechny stránky, jedna stránka nebo rozsah stránek |
Single page number | Ne | Číselná hodnota | Číslo jedné stránky, ze které chcete extrahovat tabulky | |
From page number | Ne | Číselná hodnota | Číslo první stránky z rozsahu stránek, ze kterých chcete extrahovat tabulky | |
To page number | Ne | Číselná hodnota | Číslo poslední stránky z rozsahu stránek, ze kterých chcete extrahovat tabulky | |
Password | Ano | Přímé zadání šifrovaného textu nebo textové hodnoty | Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné. | |
Sloučit tabulky, které překračují okraje stránky | – | Logická hodnota | True | Určuje, zda mají být sloučeny tabulky, které překračují okraje stránky v zadaném rozsahu stránek |
První řádek obsahuje názvy sloupců | – | Logická hodnota | True | Určuje, zda první řádek tabulky obsahuje názvy sloupců |
Vytvořené proměnné
Argument | Type | Description |
---|---|---|
ExtractedPDFTables | Seznam informací o PDF tabulkách | Extrahované tabulky s jejich informacemi ve formě seznamu |
Výjimky
Výjimka | Description |
---|---|
Soubor PDF neexistuje | Soubor v dané cestě neexistuje |
Neplatné heslo | Zadané heslo je neplatné |
Nepodařilo se extrahovat tabulky | Chyba při pokusu o extrahování tabulek |
Extrahovat obrázky z PDF
Chcete-li extrahovat obrázky ze souboru PDF, můžete použít akci Extrahovat obrázky z PDF. V parametrech akce můžete definovat soubor PDF a stránky, ze kterých se mají obrázky extrahovat, konvenci pojmenování extrahovaných obrázků a cílové umístění uložených obrázků. V rozšířeném nastavení můžete také definovat heslo, pokud je soubor PDF chráněn.
Vstupní parametry
Argument | Volitelné | Přijímá | Výchozí hodnota | Description |
---|---|---|---|---|
PDF file | Ne | Soubor | Soubor PDF k extrakci obrázků. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu. | |
Password | Ano | Přímé zadání šifrovaného textu nebo textové hodnoty | Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné. | |
Page(s) to extract | Není k dispozici | Vše, Single, Range | Všechny | Určuje, kolik stránek se má extrahovat: všechny stránky, jedna stránka nebo rozsah stránek |
Single page number | Ne | Číselná hodnota | Číslo jedné stránky, ze které se mají extrahovat obrázky | |
From page number | Ne | Číselná hodnota | První číslo stránky z rozsahu stránek, ze kterých se mají extrahovat obrázky | |
To page number | Ne | Číselná hodnota | Poslední číslo stránky z rozsahu stránek, ze kterých se mají extrahovat obrázky | |
Image(s) name | Ne | Textová hodnota | Jak začíná název obrázků. Příklad názvu extrahovaných obrázků: GivenName_1, GivenName_2 | |
Save image(s) to | Ne | Složka | Složka pro uložení extrahovaných obrázků jako souborů .png |
Vytvořené proměnné
Tato akce nevytváří žádné proměnné.
Výjimky
Výjimka | Description |
---|---|
Neplatné heslo | Zadané heslo je neplatné |
Extrahování obrázků se nezdařilo | Označuje, že došlo k chybě při extrahování obrázků z daných stránek souboru PDF |
Složka neexistuje | Označuje, že složka neexistuje |
Soubor PDF neexistuje | Soubor v dané cestě neexistuje |
Extrahovat stránky souboru PDF do nového souboru PDF
Můžete vytvořit nový soubor PDF extrahováním stránek z existujícího souboru PDF pomocí akce Extrahovat stránky souboru PDF do nového souboru PDF. V parametrech akce můžete definovat soubor PDF, ze kterého se mají stránky extrahovat, stránky, které se mají extrahovat, umístění nového souboru PDF a co se má stát, pokud soubor se stejným názvem a příponou již existuje. Nakonec v rozšířených vlastnostech můžete definovat heslo pro případ, že je zdrojový soubor PDF chráněn.
Vstupní parametry
Argument | Volitelné | Přijímá | Výchozí hodnota | Description |
---|---|---|---|---|
PDF file | Ne | Soubor | Soubor PDF k extrakci stránek. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu. | |
Password | Ano | Přímé zadání šifrovaného textu nebo textové hodnoty | Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné. | |
Page selection | Ne | Textová hodnota | Čísla indexů stránek, které se mají zachovat (např. 1,3,17-24) | |
Extracted PDF path | Ne | Soubor | Cesta k uložení extrahovaného souboru PDF | |
If file exists | Není k dispozici | Přepsat, nepřepisovat, přidat sekvenční příponu | Přidat sekvenční příponu | Určuje, co dělat v případě, že výstupní soubor PDF již existuje |
Vytvořené proměnné
Argument | Type | Description |
---|---|---|
ExtractedPDF | Soubor | Nový soubor PDF |
Výjimky
Výjimka | Popis |
---|---|
Neplatné heslo | Zadané heslo je neplatné |
Soubor PDF neexistuje | Soubor v dané cestě neexistuje |
Stránka mimo hranice | Označuje, že jedna nebo více stránek souboru PDF je mimo hranice |
Neplatný výběr stránek | Označuje, že dané stránky nejsou platné pro soubor PDF |
Nepodařilo se extrahovat nový soubor PDF | Označuje, že při pokusu o extrahování nového souboru PDF došlo k chybě |
Sloučit soubory PDF
Sloučí více souborů PDF do nového souboru.
Pomocí akce Sloučit soubory PDF můžete vzít dva nebo více souborů PDF a sloučit je do jednoho souboru. Soubory ke sloučení lze zadat ve formě seznamu nebo uzavřené do dvojitých uvozovek a oddělené oddělovačem. Můžete také zadat hesla pro soubory PDF, pokud jsou chráněny heslem.
Vstupní parametry
Argument | Volitelné | Přijímá | Výchozí hodnota | Description |
---|---|---|---|---|
PDF files | Ne | Seznamsouborů | Soubory ke sloučení. Uzavřete více souborů do uvozovek (") a oddělte je oddělovačem, nebo použijte seznam souborů. | |
Merged PDF path | Ne | Soubor | Cesta k uložení sloučeného souboru PDF | |
If file exists | Není k dispozici | Přepsat, nepřepisovat, přidat sekvenční příponu | Přidat sekvenční příponu | Určuje, co dělat v případě, že cílový soubor již existuje |
Passwords | Ano | Přímé zadání šifrovaného textu nebo textové hodnoty | Oddělená hesla. Pořadí by mělo být stejné jako pořadí vstupních souborů PDF. Pokud soubory PDF nejsou chráněny heslem, ponechte toto pole prázdné. | |
Delimiter | Ne | Textová hodnota | , | Vlastní oddělovač hesel. Tento oddělovač by neměl být součástí žádného z hesel. |
Vytvořené proměnné
Argument | Type | Description |
---|---|---|
MergedPDF | Soubor | Sloučený soubor PDF |
Výjimky
Výjimka | Popis |
---|---|
Soubor PDF neexistuje | Soubor v dané cestě neexistuje |
Neplatné heslo | Zadané heslo je neplatné |
Sloučení souborů PDF se nezdařilo | Označuje, že při sloučení souborů došlo k chybě |