Sdílet prostřednictvím


Akce PDF

Akce PDF umožňují extrahovat obrázky, text a tabulky ze souborů PDF a uspořádat stránky pro vytvoření nových dokumentů.

Chcete-li extrahovat text ze souboru PDF, použijte akci Extrahovat text z PDF. V následujícím příkladu se extrahuje text z určitého rozsahu stránek souboru chráněného heslem. Heslo je specifikováno v nastavení Pokročilé.

Pokud chcete extrahovat texty uspořádané do tabulkové formy, zapněte Optimalizovat pro strukturovaná data pro zlepšení formátu a přesnosti výsledků.

Screenshot akce Extrahovat text z PDF.

Chcete-li extrahovat tabulky ze souboru PDF, nasaďte akci Extrahovat tabulky z PDF, vyberte soubor a určete stránky, ze kterých chcete extrahovat.

Akce vytvoří proměnnou ExtractedPDFTables, která obsahuje seznam informací o tabulce PDF. Chcete-li najít informace o tomto typu seznamu, přejděte na Pokročilé datové typy.

Poznámka:

  • Akce Extrahovat tabulky z PDF nepoužívá optické rozpoznávání znaků (OCR), takže z naskenovaných PDF nemůžete extrahovat nekopírovatelný text.
  • Knihovna za akcí příležitostně extrahuje další data PDF, která nejsou tabulkami. Tato funkce minimalizuje riziko náhodného vynechání skutečné tabulky.

Screenshot akce Extrahovat tabulky z PDF.

Kromě extrahování informací ze souborů PDF můžete vytvořit nový dokument PDF z existujícího souboru pomocí akce Extrahovat stránky souboru PDF do nového souboru PDF.

Následující příklad vybere kombinaci konkrétních stránek a rozsahu stránek.

Screenshot akce Extrahovat stránky ze souboru PDF do nového souboru PDF.

Extrahovat text z PDF

Můžete extrahovat text ze souboru PDF pomocí akce „Extrahovat text z PDF“. Ve vlastnostech akce můžete definovat zdrojový soubor PDF a stránky, ze kterých má být text extrahován. V pokročilých vlastnostech akce můžete definovat heslo pro případ, že je soubor PDF chráněn a zda se má modul optimalizovat pro strukturovaná data či nikoli.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
PDF file Ne Soubor Soubor PDF k extrakci textu. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu.
Page(s) to extract Vše, Single, Range Všechny Určuje, kolik stránek se má extrahovat: všechny stránky, jedna stránka nebo rozsah stránek
Single page number Ne Číselná hodnota Číslo jedné stránky, ze které se má extrahovat text
From page number Ne Číselná hodnota První číslo stránky z rozsahu stránek, ze kterých se má extrahovat text
To page number Ne Číselná hodnota Poslední číslo stránky z rozsahu stránek, ze kterých se má extrahovat text
Password Ano Přímé zadání šifrovaného textu nebo textové hodnoty Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné.
Optimalizace pro strukturovaná data Logická hodnota False Určete, zda se má v dokumentu rozpoznat formátované rozvržení a odpovídajícím způsobem extrahovat text

Vytvořené proměnné

Argument Type Description
ExtractedPDFText Textová hodnota Extrahovaný text

Výjimky

Výjimka Popis
Soubor PDF neexistuje Soubor v dané cestě neexistuje
Neplatné heslo Zadané heslo je neplatné
Nepodařilo se extrahovat text Při pokusu o extrahování textu došlo k chybě

Extrahovat tabulky ze souboru PDF

Tabulky, které jsou obsaženy v souboru PDF, můžete extrahovat pomocí akce Extrahovat tabulky z PDF. Ve vlastnostech akce můžete definovat zdrojový soubor PDF a rozsah stránek, ze kterých budou tabulky extrahovány. V pokročilých vlastnostech akce můžete definovat heslo pro případ, že je soubor PDF chráněn, definovat, zda má tabulka záhlaví nebo ne, a nakonec, zda mají být tabulky, které překračují okraje stránky, sloučeny nebo ne.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
PDF file Ne Soubor Soubor PDF, ze kterého se mají extrahovat tabulky. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu.
Page(s) to extract Vše, Single, Range Všechny Určuje, z kolika stránek se mají extrahovat tabulky: všechny stránky, jedna stránka nebo rozsah stránek
Single page number Ne Číselná hodnota Číslo jedné stránky, ze které chcete extrahovat tabulky
From page number Ne Číselná hodnota Číslo první stránky z rozsahu stránek, ze kterých chcete extrahovat tabulky
To page number Ne Číselná hodnota Číslo poslední stránky z rozsahu stránek, ze kterých chcete extrahovat tabulky
Password Ano Přímé zadání šifrovaného textu nebo textové hodnoty Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné.
Sloučit tabulky, které překračují okraje stránky Logická hodnota True Určuje, zda mají být sloučeny tabulky, které překračují okraje stránky v zadaném rozsahu stránek
První řádek obsahuje názvy sloupců Logická hodnota True Určuje, zda první řádek tabulky obsahuje názvy sloupců

Vytvořené proměnné

Argument Type Description
ExtractedPDFTables Seznam informací o PDF tabulkách Extrahované tabulky s jejich informacemi ve formě seznamu

Výjimky

Výjimka Description
Soubor PDF neexistuje Soubor v dané cestě neexistuje
Neplatné heslo Zadané heslo je neplatné
Nepodařilo se extrahovat tabulky Chyba při pokusu o extrahování tabulek

Extrahovat obrázky z PDF

Chcete-li extrahovat obrázky ze souboru PDF, můžete použít akci Extrahovat obrázky z PDF. V parametrech akce můžete definovat soubor PDF a stránky, ze kterých se mají obrázky extrahovat, konvenci pojmenování extrahovaných obrázků a cílové umístění uložených obrázků. V rozšířeném nastavení můžete také definovat heslo, pokud je soubor PDF chráněn.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
PDF file Ne Soubor Soubor PDF k extrakci obrázků. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu.
Password Ano Přímé zadání šifrovaného textu nebo textové hodnoty Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné.
Page(s) to extract Není k dispozici Vše, Single, Range Všechny Určuje, kolik stránek se má extrahovat: všechny stránky, jedna stránka nebo rozsah stránek
Single page number Ne Číselná hodnota Číslo jedné stránky, ze které se mají extrahovat obrázky
From page number Ne Číselná hodnota První číslo stránky z rozsahu stránek, ze kterých se mají extrahovat obrázky
To page number Ne Číselná hodnota Poslední číslo stránky z rozsahu stránek, ze kterých se mají extrahovat obrázky
Image(s) name Ne Textová hodnota Jak začíná název obrázků. Příklad názvu extrahovaných obrázků: GivenName_1, GivenName_2
Save image(s) to Ne Složka Složka pro uložení extrahovaných obrázků jako souborů .png

Vytvořené proměnné

Tato akce nevytváří žádné proměnné.

Výjimky

Výjimka Description
Neplatné heslo Zadané heslo je neplatné
Extrahování obrázků se nezdařilo Označuje, že došlo k chybě při extrahování obrázků z daných stránek souboru PDF
Složka neexistuje Označuje, že složka neexistuje
Soubor PDF neexistuje Soubor v dané cestě neexistuje

Extrahovat stránky souboru PDF do nového souboru PDF

Můžete vytvořit nový soubor PDF extrahováním stránek z existujícího souboru PDF pomocí akce Extrahovat stránky souboru PDF do nového souboru PDF. V parametrech akce můžete definovat soubor PDF, ze kterého se mají stránky extrahovat, stránky, které se mají extrahovat, umístění nového souboru PDF a co se má stát, pokud soubor se stejným názvem a příponou již existuje. Nakonec v rozšířených vlastnostech můžete definovat heslo pro případ, že je zdrojový soubor PDF chráněn.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
PDF file Ne Soubor Soubor PDF k extrakci stránek. Zadejte cestu k souboru nebo proměnnou obsahující soubor nebo textovou cestu.
Password Ano Přímé zadání šifrovaného textu nebo textové hodnoty Heslo souboru PDF. Pokud soubor PDF není chráněn heslem, ponechte toto pole prázdné.
Page selection Ne Textová hodnota Čísla indexů stránek, které se mají zachovat (např. 1,3,17-24)
Extracted PDF path Ne Soubor Cesta k uložení extrahovaného souboru PDF
If file exists Není k dispozici Přepsat, nepřepisovat, přidat sekvenční příponu Přidat sekvenční příponu Určuje, co dělat v případě, že výstupní soubor PDF již existuje

Vytvořené proměnné

Argument Type Description
ExtractedPDF Soubor Nový soubor PDF

Výjimky

Výjimka Popis
Neplatné heslo Zadané heslo je neplatné
Soubor PDF neexistuje Soubor v dané cestě neexistuje
Stránka mimo hranice Označuje, že jedna nebo více stránek souboru PDF je mimo hranice
Neplatný výběr stránek Označuje, že dané stránky nejsou platné pro soubor PDF
Nepodařilo se extrahovat nový soubor PDF Označuje, že při pokusu o extrahování nového souboru PDF došlo k chybě

Sloučit soubory PDF

Sloučí více souborů PDF do nového souboru.

Pomocí akce Sloučit soubory PDF můžete vzít dva nebo více souborů PDF a sloučit je do jednoho souboru. Soubory ke sloučení lze zadat ve formě seznamu nebo uzavřené do dvojitých uvozovek a oddělené oddělovačem. Můžete také zadat hesla pro soubory PDF, pokud jsou chráněny heslem.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
PDF files Ne Seznamsouborů Soubory ke sloučení. Uzavřete více souborů do uvozovek (") a oddělte je oddělovačem, nebo použijte seznam souborů.
Merged PDF path Ne Soubor Cesta k uložení sloučeného souboru PDF
If file exists Není k dispozici Přepsat, nepřepisovat, přidat sekvenční příponu Přidat sekvenční příponu Určuje, co dělat v případě, že cílový soubor již existuje
Passwords Ano Přímé zadání šifrovaného textu nebo textové hodnoty Oddělená hesla. Pořadí by mělo být stejné jako pořadí vstupních souborů PDF. Pokud soubory PDF nejsou chráněny heslem, ponechte toto pole prázdné.
Delimiter Ne Textová hodnota , Vlastní oddělovač hesel. Tento oddělovač by neměl být součástí žádného z hesel.

Vytvořené proměnné

Argument Type Description
MergedPDF Soubor Sloučený soubor PDF

Výjimky

Výjimka Popis
Soubor PDF neexistuje Soubor v dané cestě neexistuje
Neplatné heslo Zadané heslo je neplatné
Sloučení souborů PDF se nezdařilo Označuje, že při sloučení souborů došlo k chybě