Aquaforest PDF

Konektor Aquaforest PDF obsahuje skupinu akcí, které provádějí různé operace PDF, jako je rozdělení, extrakce textu, extrakce čárových kódů a operace OCR pro Office 365 a Power Automate.

Tento konektor je dostupný v následujících produktech a oblastech:

Service Class Regions
Copilot Studio Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Logic Apps Standard Všechny oblasti Logic Apps s výjimkou následujících:
     – Oblasti Azure Government
     – Oblasti Azure China
     - Ministerstvo obrany USA (DoD)
Power Apps Premium Všechny oblasti Power Apps s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Power Automate Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Kontakt
Název Podpora Aquaforest
URL https://www.aquaforest.com/en/aquaforest-flow-doc.asp
Email support@aquaforest.com
Metadata konektoru
Vydavatel Aquaforest Limited
Internetová stránka https://www.aquaforest.com/en/aquaforest-connector.asp
Zásady ochrany osobních údajů https://www.aquaforest.com/en/privacy policy.pdf
Kategorie Obsah a soubory; Data

Konektor Aquaforest PDF obsahuje skupinu akcí, které provádějí různé operace PDF, jako je rozdělení, extrakce textu, extrakce čárových kódů a operace OCR pro Office 365 a Flow.

Požadavky

Nejprve musíte vytvořit účet rozhraní API Aquaforest PDF. Tento účet slouží ke správě akce Aquaforest PDF a rozhraní PDF API Aquaforest. Použijte aktivní e-mailovou adresu, protože předplatné bude propojeno s touto adresou. Pokud už účet máte, stačí se sem přihlásit.

Jak získat přihlašovací údaje

  1. Přihlaste se k portálu pro vývojáře, přejděte na stránku Produkty a vyberte produkt, který chcete přihlásit k odběru.

  2. Klikněte na tlačítko Přihlásit se k odběru .

  3. Kliknutím na tlačítko Potvrdit potvrďte žádost o předplatné.

  4. Přístup ke klíčům rozhraní API můžete získat na stránce profilu.

Vytvoření připojení

Konektor podporuje následující typy ověřování:

výchozí Parametry pro vytvoření připojení Všechny oblasti Nesdílitelné

Výchozí

Použitelné: Všechny oblasti

Parametry pro vytvoření připojení

Toto připojení není možné sdílet. Pokud se power app sdílí s jiným uživatelem, zobrazí se výzva k explicitní vytvoření nového připojení.

Název Typ Description Povinné
Klíč rozhraní API securestring Klíč rozhraní API pro toto rozhraní API Pravdivé

Limity omezování

Name Volání Období obnovení
Volání rozhraní API na připojení 100 60 sekund

Akce

Extrahování stránek PDF podle textu

Extrahujte soubory PDF na základě textových shod definovaných uživatelem. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Extrahování stránek PDF podle čárového kódu

Extrahujte soubory PDF na základě shody čárového kódu definované uživatelem. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

OCR PDF nebo obrázky

Vygenerujte prohledávatelný SOUBOR PDF z obrázku VE FORMÁTU PDF nebo naskenovaných obrázků. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Rozdělení PDF podle shody textu

Rozdělí soubory PDF na základě textových shod definovaných uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci. Kromě toho je k dispozici nástroj pro extrakci zónových zón na adrese [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Rozdělení PDF podle čárového kódu

Rozdělí soubory PDF na základě shody čárového kódu definované uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci. Kromě toho je k dispozici nástroj pro extrakci zónových zón na adrese [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Rozdělit PDF podle stránky

Rozdělí soubory PDF na základě možností rozdělení definovaných uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci.

Získání dat z PDF

Tato akce extrahuje důležitá data ze souborů PDF ve formě párů klíč/hodnota.

Získání hodnoty čárového kódu

Získejte čárový kód z PDF. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Získání textu z PDF

Získat text ze souborů PDF na základě umístění textu a regulárních výrazů. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Získání vlastností PDF

Získá informace o souboru PDF.

Extrahování stránek PDF podle textu

Extrahujte soubory PDF na základě textových shod definovaných uživatelem. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Šablona názvu souboru
fileNameTemplate True string

Šablona výstupního souboru, pokud se najde shoda textu

Žádná šablona souboru
noTextFileName True string

Šablona výstupního souboru, pokud se nenajde shoda s textem

Název souboru
sourceFileName True string

Název zdrojového souboru

Hodnota
expression array of string

Zadejte jednu nebo více hodnot, které se mají použít s výše uvedenou vlastností, vrátíme první textovou hodnotu, která odpovídá výše uvedenému pravidlu.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Vyberte
position string

Tato možnost slouží k upřesnění textu, který extrahujete více, a vyberte možnost, která odpovídá vašim požadavkům.

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním veškerý extrahovaný text a vrátíme shodu.

Návraty

Extrahování stránek PDF podle čárového kódu

Extrahujte soubory PDF na základě shody čárového kódu definované uživatelem. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Šablona názvu souboru
fileNameTemplate True string

Šablona výstupního souboru, pokud se najde čárový kód

Žádná šablona souboru
noTextFileName True string

Šablona výstupního souboru, pokud se nenajde žádný čárový kód

Název souboru
sourceFileName True string

Název zdrojového souboru

Typ
barcodeFormats array of string

Zadejte typy čárových kódů, které chcete identifikovat.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním jakýkoli extrahovaný čárový kód a vrátíme shodu.

Návraty

OCR PDF nebo obrázky

Vygenerujte prohledávatelný SOUBOR PDF z obrázku VE FORMÁTU PDF nebo naskenovaných obrázků. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Parametry

Name Klíč Vyžadováno Typ Description
AquaforestImageTimeout
aquaforestImageTimeout integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Author
author string

Nastavte vlastního autora ve vlastnostech výstupního dokumentu PDF.

Automatické otáčení
autorotate boolean

Automatické otočení obrázku – tím zajistíte, že se veškerý text orientuje normálně.

Binarize
binarize integer

Tato hodnota by se obecně měla používat pouze v rámci pokynů technické podpory. Může řídit způsob zpracování barevných obrázků a vynucení binarizace s konkrétní prahovou hodnotou. Obecně se ukázalo, že hodnota 200 poskytuje dobré výsledky při testování, ale mělo by to být potvrzeno "typickými" dokumenty zákazníků. Když tuto možnost nastavíte na -1 použijete alternativní metodu, která se pokusí oddělit text od obrázků nebo barev pozadí. To může zlepšit výsledky OCR pro určité dokumenty, jako jsou stránky novin a časopisů.

Limit černého pixelu
blackPixelLimit float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Prahová hodnota prázdné stránky
blankPageThreshold integer

Tento postup slouží k nastavení minimálního počtu pixelů na pixelech, které musí být přítomné na obrázku, aby stránka nebyla považována za prázdnou. Hodnota -1 vypne detekci prázdných stránek.

Velikost pole
boxSize integer

Tato možnost je ideální pro formuláře, kdy někdy pole kolem textu můžou způsobit identifikaci oblasti jako grafiky. Tato možnost odebere pole z dočasné kopie image používané modulem OCR. Neodebere pole z konečného obrázku. Technicky vzato tato možnost odebere propojené prvky s minimální oblastí (v pixelech a definovaných touto vlastností). Tato možnost se aktuálně používá pouze pro bi-tonal obrázky.

ConvertToTiff
convertToTiff boolean

Každá stránka v dokumentu PDF je rastrová na obrázek TIFF.

CreateProcess
createProcess boolean

Tuto hodnotu nastavte na true, pokud chcete proces spustit pomocí připnutí.

Datum vytvoření
creationDate string

Nastavte vlastní datum vytvoření ve vlastnostech výstupního dokumentu PDF. Řetězec kalendářního data musí být ve formátu rrrr-MM-dd HH:mm:ss.

Nerovnoměrná distribuce
deskew boolean

Deskew (narovnejte) obrázek.

Despeckle
despeckle integer

Tím se odeberou všechny odpojené prvky v obrázku, které mají výšku nebo šířku v pixelech menší než zadaný obrázek. Maximální hodnota je 9 a výchozí hodnota je 0.

SlovníkVyhledat
dictionaryLookup integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Dotmatrix
dotmatrix boolean

Nastavte tuto hodnotu na true, aby se zlepšilo rozpoznávání písem s tečkou matice. Výchozí hodnotou je nepravda. Pokud je pro písma bez tečky nastavená hodnota true, může být rozpoznávání špatné.

Povolení výstupu ladění
enableDebugOutput boolean

Povolí výstup ladění.

Komprimovat PDF (MRC)
enableMrc boolean

To umožňuje smíšenou rastrovou kompresi, která může výrazně snížit velikost výstupu souborů PDF složených z barevných kontrol. Mějte na paměti, že tato možnost je vhodná pouze v případě, že zdroj není PDF nebo používá ConvertToTiff.

Výstup PDF/A
enablePDFAOutput boolean

Zda má být výstup ve formátu PDF/A, nebo ne.

Režim chyby
errorMode integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Obsah zdrojového souboru
fileContent True byte

Obsah souboru do OCR

Název zdrojového souboru s příponou
fileNameWithExtension True string

Název zdrojového souboru s příponou nebo pouze příponou (s úvodní tečkou .)

Překlopit detekci
flipDetect integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Kvalita stupně šedé
grayscaleQuality integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Heuristika
heuristics integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Jbig2EncFlags
jbig2EncFlags string

Jedná se o příznaky, které se předají aplikaci, která se použije k vygenerování verzí imagí JBIG2 používaných ve generování PDF (za předpokladu, že je tato komprese povolená). Tato možnost by se obecně měla používat pouze v rámci pokynů technické podpory.

Jazyk
language enum

Výběrem jedné z následujících možností nastavíte jazyk, který se má použít pro zpracování OCR. Výchozí jazyk je angličtina.

LibTiffSavePageAsBmp
libTiffSavePageAsBmp boolean

Někdy je-li obraz, který je 1bpp a má kompresi LZW, může předběžné zpracování způsobit, že barva obrázku bude invertována (černá až bílá až černá až černá). Nastavte tuto hodnotu na true, aby se tomu zabránilo.

Maximální nerovnoměrná distribuce
maxDeskew float

Maximální úhel, o kterém bude stránka rozepsaná. Tato možnost by se obecně měla používat pouze v rámci pokynů technické podpory (support@aquaforest.com).

Minimální spolehlivost deskew
minDeskewConfidence float

Tato možnost by se obecně měla používat pouze v rámci pokynů technické podpory (support@aquaforest.com).

Datum změny
modifiedDate string

Nastavte vlastní datum změny ve vlastnostech výstupního dokumentu PDF. Řetězec kalendářního data musí být ve formátu rrrr-MM-dd HH:mm:ss.

Morfing
morph string

Morfologické možnosti, které se použijí u binarizované image před OCR. Pokud je nastavená na prázdnou hodnotu, nepoužije se žádná. Mezi běžné možnosti patří ty, které jsou uvedeny níže, ale další možnosti prosím kontaktujte support@aquaforest.com.

MrcBackgroundFactor
mrcBackgroundFactor integer

Velikost vzorkování pro část pozadí obrázku Čím vyšší je číslo, tím větší je velikost bloků obrázků použitých pro průměrování, což způsobí snížení velikosti, ale také kvalitu. Výchozí hodnota je 3

MrcForegroundFactor
mrcForegroundFactor integer

Velikost vzorkování pro část obrázku na popředí Čím vyšší je číslo, tím větší je velikost bloků obrázků použitých pro průměrování, což způsobí snížení velikosti, ale také kvalitu. Výchozí hodnota je 3

MrcQuality
mrcQuality integer

Nastavení kvality JPEG (procentuální hodnota 1 – 100) pro uložení pozadí a obrázků na popředí. Výchozí hodnota je 75

MrcTimeout
mrcTimeout integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

NoPictures
noPictures boolean

Pokud je oblast dokumentu ve výchozím nastavení označená jako grafická oblast, neproběhne v této oblasti žádné zpracování OCR. Některé dokumenty ale můžou obsahovat oblasti nebo rámečky, které jsou označené jako "grafické" nebo "obrázkové" oblasti, ale které ve skutečnosti obsahují užitečný text. Nastavení noPictures na True způsobí, že bude ignorovat oblasti identifikované jako obrázky a nastavení na Hodnotu False vynutí OCR oblastí identifikovaných jako obrázky.

OcrProcessSetupTimeout
ocrProcessSetupTimeout integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

OcrTimeout
ocrTimeout integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Heslo
password string

Heslo pro otevření zdrojového souboru PDF

PdfToImageBpp
pdfToImageBpp enum

Bity na pixel, které se mají použít pro rastrovou stránku PDF při použití motoru 1. To platí jenom pro dokumenty, které jsou zpracovány pomocí convertToTiff. Výchozí hodnota této vlastnosti je převzata ze stránky PDF.

PdfToImageCompression
pdfToImageCompression enum

Komprese, která se nastaví na obrázky extrahované nebo rasterizované z každé stránky zdrojového souboru PDF. Tyto obrázky pak OCRed vytvoří prohledávatelný SOUBOR PDF. Výchozí hodnota této vlastnosti je převzata z každé stránky ve zdrojovém souboru PDF.

PdfToImageDpi
pdfToImageDpi enum

Dpi, které se má nastavit na obrázky rasterizované z každé stránky zdrojového souboru PDF. Tyto obrázky pak OCRed vytvoří prohledávatelný SOUBOR PDF. Výchozí hodnota této vlastnosti je převzata z každé stránky ve zdrojovém souboru PDF.

PdfToImageForceVectorCheck
pdfToImageForceVectorCheck boolean

Toto nastavení je užitečné při práci s dokumenty, které obsahují vektorové objekty (např. výkresy CAD). Ve výchozím nastavení jsou stránky obsahující pouze vektorové objekty rastrové. Stránky, které nemají obrázky, ale obsahují vektorové objekty a elektronický text se přeskočí z rasterizace. Někdy však může existovat stránka, která obsahuje vektorové objekty (výkresy CAD), ale její název může být v elektronickém textu. Chcete-li vynutit rastrování stránek, jako jsou tyto, nastavte tuto vlastnost na true.

PdfToImageIncludeText
pdfToImageIncludeText boolean

Pokud nastavíte hodnotu False, zabráníte tomu, aby se převod skutečného textu (tj. elektronicky generovaného na rozdíl od textu, který je součástí naskenovaného obrázku), vykresloval v obrázcích stránek extrahovaných z PDF. Důvodem je to, že text je již prohledávatelný a obecně nevyžaduje technologii OCR. Hodnota může být nastavena na Hodnotu True, pokud je u tohoto skutečného textu vyžadována technologie OCR.

PdfToImageMaxRes
pdfToImageMaxRes integer

Maximální rozlišení rastrových obrázků. Pokud je rozlišení načtené ze stránky PDF větší než tato hodnota, nastaví se na tuto hodnotu. Výchozí hodnota této vlastnosti je 600.

PdfToImageMinRes
pdfToImageMinRes integer

Minimální rozlišení rastrových obrázků. Pokud je rozlišení načtené ze stránky PDF nižší než tato hodnota, nastaví se na tuto hodnotu. Výchozí hodnota této vlastnosti je 200.

Verze PDF/A
pdfaVersion enum

Verze PDF/A.

PipeClientConnectionTimeout
pipeClientConnectionTimeout integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

RemoveBlankPage
removeBlankPage boolean

Odeberte prázdné stránky, pokud je BlankPageThreshold větší než -1 a ConvertToTiff je true.

RemoveLines
removeLines boolean

Lepší rozpoznání odstranění čar z obrázků

RestartEngineEvery
restartEngineEvery integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Zachování záložek
retainBookmarks boolean

Při použití funkce ConvertToTiff zachová všechny záložky ze zdrojového souboru ve výstupu.

Zachovat datum vytvoření
retainCreationDate boolean

Zachová datum vytvoření zdrojového souboru ve vlastnostech výstupního dokumentu PDF.

Zachování metadat
retainMetadata boolean

Při použití funkce ConvertToTiff zachová všechna metadata ze zdrojového souboru ve výstupu.

Zachovat datum změny
retainModifiedDate boolean

Zachová datum změny zdrojového souboru ve vlastnostech výstupního dokumentu PDF.

Zachování předvoleb prohlížeče
retainViewerPreferences boolean

Při použití funkce ConvertToTiff zachová všechny předvolby prohlížeče PDF, režim stránky a rozložení stránky ze zdrojového souboru ve výstupu.

SavePredespeckle
savePredespeckle boolean

Použije se původní obrázek (tj. před použitím předběžného zpracování) ve výstupním souboru PDF.

Tables
tables boolean

Pokud je tato možnost nastavená na hodnotu true, pokusí se OCR v buňkách tabulky.

TextLayerFilterHeight
textLayerFilterHeight integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterHeightInverted
textLayerFilterHeightInverted integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterPercentage
textLayerFilterPercentage float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterPercentageInverted
textLayerFilterPercentageInverted float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterRatio
textLayerFilterRatio float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterRatioInverted
textLayerFilterRatioInverted float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterWidth
textLayerFilterWidth integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerFilterWidthInverted
textLayerFilterWidthInverted integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

TextLayerMaxBoxes
textLayerMaxBoxes integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Režim tidy-up
tidyUpMode integer

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Ověření PDF/A
validatePDFA boolean

Ověření dokumentu PDF/A po převodu

Prahová hodnota shody ve Wordu
wordMatchThreshold float

Pokud potřebujete pomoc s používáním této vlastnosti, obraťte se na technickou podporu (support@aquaforest.com).

Návraty

Data odpovědi pro operaci OCR

Rozdělení PDF podle shody textu

Rozdělí soubory PDF na základě textových shod definovaných uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci. Kromě toho je k dispozici nástroj pro extrakci zónových zón na adrese [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Šablona názvu souboru
fileNameTemplate True string

Šablona výstupního souboru, pokud se najde shoda textu

Stránky bez shody
noMatch string

V závislosti na možnosti rozdělení, kterou vyberete výše, některé stránky nebudou mít extrahované žádné textové hodnoty. Zvolte, co chcete udělat na těchto stránkách.

Žádná šablona souboru
noTextFileName True string

Šablona výstupního souboru, pokud se nenajde shoda s textem

Název souboru
sourceFileName True string

Název zdrojového souboru

Možnosti výstupního souboru
splitOption string

Zvolte umístění stránky s čárovým kódem ve výstupních souborech z operace rozdělení.

Hodnota
expression array of string

Zadejte jednu nebo více hodnot, které se mají použít s výše uvedenou vlastností, vrátíme první textovou hodnotu, která odpovídá výše uvedenému pravidlu.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Vyberte
position string

Tato možnost slouží k upřesnění textu, který extrahujete více, a vyberte možnost, která odpovídá vašim požadavkům.

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním veškerý extrahovaný text a vrátíme shodu.

Návraty

Rozdělení PDF podle čárového kódu

Rozdělí soubory PDF na základě shody čárového kódu definované uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci. Kromě toho je k dispozici nástroj pro extrakci zónových zón na adrese [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Šablona názvu souboru
fileNameTemplate True string

Šablona výstupního souboru, pokud se najde čárový kód

Stránky bez shody
noMatch string

V závislosti na možnosti rozdělení, kterou vyberete výše, některé stránky nebudou mít žádnou hodnotu čárového kódu. Zvolte, co chcete udělat na těchto stránkách.

Žádná šablona shody čárového kódu
noTextFileName True string

Šablona výstupního souboru, pokud se nenajde žádný čárový kód

Název souboru
sourceFileName True string

Název zdrojového souboru

Možnosti výstupního souboru
splitOption string

Tato možnost slouží k upřesnění textu, který extrahujete více, a vyberte možnost, která odpovídá vašim požadavkům.

Typ
barcodeFormats array of string

Zadejte typy čárových kódů, které chcete identifikovat.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním jakýkoli extrahovaný čárový kód a vrátíme shodu.

Návraty

Rozdělit PDF podle stránky

Rozdělí soubory PDF na základě možností rozdělení definovaných uživatelem. Navštivte [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] dokumentaci.

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru.

Název výstupního souboru
fileNameTemplate True string

Cílová šablona souboru, která může obsahovat %UNIQUEn (jedinečné číslo začínající od 1, nula vysunutá na n číslic) a %FILENAME (původní název souboru bez přípony).

Název souboru
sourceFileName True string

Název zdrojového souboru.

Typ rozdělení
splitOption True string

Zvolte operaci rozdělení, která se má použít pro každý soubor.

Rozsah stránek
pageRange string

Sada rozsahů stránek oddělených čárkami, které definují, které stránky z originálu mají být extrahovány.

Opakovat každých
repeatEvery integer

Použijte rozsah stránek na každou sadu stránek Rozsahy stránek v dokumentu. Pokud je například pro rozsahy stránek zadáno číslo 2–4 a jako opakující se rozsah je zadán 4, pak se rozsah znovu použije na 4 stránky.

Zachování záložek
retainBookmarks boolean

Vygenerované soubory budou obsahovat záložky z původního souboru.

Zachování metadat
retainMetadata boolean

Vygenerované soubory budou obsahovat metadata (například Autor a Název) z původního souboru.

Návraty

Získání dat z PDF

Tato akce extrahuje důležitá data ze souborů PDF ve formě párů klíč/hodnota.

Parametry

Name Klíč Vyžadováno Typ Description
Název
settingName True string

Sem zadejte název nastavení.

Hodnota
settingValue True string

Sem zadejte hodnotu nastavení.

Skóre spolehlivosti
confidenceScore number

Nastavením vyššího skóre spolehlivosti vyfiltrujte hodnoty s nižší jistotou. Můžete nastavit libovolnou hodnotu mezi 0 a 1. Doporučujeme začít od verze 0,5.

Převod data
dateAsISO string

Vyberte formát, který chcete vrátit jako hodnotu data.

Očekávané klíče
expectedKeys string

Zadejte jeden název klíče na řádek, aby byly hodnoty dostupné pro pozdější akce bez analýzy JSON.

Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Limit stránky
pageLimit integer

Maximální počet stránek, které se mají zpracovat

Rozsah stránek
pageRange string

Řetězcová reprezentace čísel stránek, která chcete zpracovat. Např. 1,3-4

Symbol měny pruhu
stripCurrencySymbol boolean

Tuto hodnotu nastavte na true, pokud chcete, aby se symboly a řetězce odebraly před vrácením hodnot měny.

Shoda synonyma
synonym boolean

Tuto hodnotu nastavte na true, pokud chcete, abychom vrátili všechny klíče, které jsou synonymy k očekávanému klíči.

Slovník synonym
synonymDictionary string

Můžete zadat pole JSON s objekty entry, kde každý objekt obsahuje seznam synonym v poli. Pokud chcete například interpretovat "Číslo faktury" a "Číslo faktury" (nerozlišuje velká a malá písmena), použijte následující kód JSON: [{'entry': [ 'Invoice No', 'invoice number' ]}]

Oříznutí symbolů
trimSymbols boolean

Tuto hodnotu nastavte na true, pokud chcete, abychom odebrali všechny počáteční a koncové symboly z nalezených klíčů, než je porovnáme s očekávaným klíčem.

Návraty

Výstupy této operace jsou dynamické.

Získání hodnoty čárového kódu

Získejte čárový kód z PDF. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Parametry

Name Klíč Vyžadováno Typ Description
Šablona výsledku čárového kódu
barcodeResultTemplate True string

Šablona pro výsledek výstupního textu, pokud se najde čárový kód

Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Žádná šablona čárového kódu
noBarcodeTemplate True string

Šablona pro výsledek výstupního textu, pokud se nenajde žádný čárový kód

Oddělovač stránek
pageSeparator string

Zadejte oddělovač stránek, abyste věděli, kde jsou konce stránek.

Stránky
pagerange string

Zadejte rozsah stránek, ze kterého chcete extrahovat text, může to být jedno číslo stránky (1), více čísel stránek oddělených čárkami (1,2,3), rozsah stránek (1–4) nebo směs všech (1,2,4-7).

Název souboru
sourceFileName True string

Název zdrojového souboru

Typ
barcodeFormats array of string

Zadejte typy čárových kódů, které chcete identifikovat.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Stránka (zastaralá)
pagenumber integer

Tato vlastnost je zastaralá, doporučujeme použít vlastnost Pages. Vlastnost Pages platí pro všechny zóny a umožňuje vybrat stránky, které chcete zpracovat.

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním veškerý extrahovaný text a vrátíme shodu.

Návraty

Získání textu z PDF

Získat text ze souborů PDF na základě umístění textu a regulárních výrazů. Další informace najdete na adrese [https://www.aquaforest.com/en/aquaforest-flow-doc.asp].

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Žádná šablona shody textu
noTextTemplate True string

Šablona pro text, který se má vrátit, pokud nebyla nalezena shoda

Oddělovač stránek
pageSeparator string

Zadejte oddělovač stránek, abyste věděli, kde jsou konce stránek.

Stránky
pagerange string

Zadejte rozsah stránek, ze kterého chcete extrahovat text, může to být jedno číslo stránky (1), více čísel stránek oddělených čárkami (1,2,3), rozsah stránek (1–4) nebo směs všech (1,2,4-7).

Název souboru
sourceFileName True string

Název zdrojového souboru

Šablona výsledku textu
textResultTemplate True string

Šablona pro text, který se má vrátit, pokud se najde shoda

Hodnota
expression array of string

Zadejte jednu nebo více hodnot, které se mají použít s výše uvedenou vlastností, vrátíme první textovou hodnotu, která odpovídá výše uvedenému pravidlu.

Umístění
location True string

Oblast stránky – k získání souřadnic použijte zonální nástroj: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Stránka (zastaralá)
pagenumber integer

Tato vlastnost je zastaralá, doporučujeme použít vlastnost Pages. Vlastnost Pages platí pro všechny zóny a umožňuje vybrat stránky, které chcete zpracovat.

Vyberte
position string

Tato možnost slouží k upřesnění textu, který extrahujete více, a vyberte možnost, která odpovídá vašim požadavkům.

Vzor
regex string

Pokud je zde uveden regulární výraz, porovnáme s ním veškerý extrahovaný text a vrátíme shodu.

Návraty

Získání vlastností PDF

Získá informace o souboru PDF.

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
fileContent True byte

Obsah zdrojového souboru

Limit stránky
pageLimit integer

Maximální počet stránek, které se mají zpracovat, se používá pouze ke kontrole, jestli stránky obsahují skrytý text nebo jestli je pdf prohledávatelné.

Návraty

Definice

ApiExtractPost200ApplicationJsonResponse

Name Cesta Typ Description
Error
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Je úspěšný
IsSuccessful boolean

Pokud byla extrahována alespoň jedna stránka, vrátí se true.

Informace o licenci
LicenceInfo string

Informace o klíči předplatného rozhraní API

Extrahování výstupních souborů
SplittedFile array of object

Pole extrahovaných souborů

(Obsah souboru)
SplittedFile.SplitFileContent byte

Základní řetězec 64 představující obsah souboru

(Název souboru)
SplittedFile.SplitFileName string

Řetězec obsahující vygenerovaný název souboru

(Číslo stránky)
SplittedFile.pageNumber string

Rozsah stránek obsahující číslo stránky, ve kterém došlo k extrakci

ApiGetTextValueJsonResponse

Name Cesta Typ Description
Zpráva o chybě
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Je úspěšný
IsSuccessful boolean

Pokud se text úspěšně shodoval

Informace o licenci
LicenceInfo string

Informace o klíči předplatného rozhraní API

Výsledek textu
TextResult string

Řetězec vygenerovaný z použití extrahovaného textu na zadanou šablonu výsledku textu. Poznámka: Pokud je počet stránek větší než jeden, zřetězení všech stránek pomocí oddělovače stránek.

Results
TextResults array of object

Pole obsahující seznam stránek a extrahované textové hodnoty

(Číslo stránky)
TextResults.pageNumber string

Stránka, na které byl text nalezen

(Text stránky)
TextResults.valueExtracted string

Řetězec vygenerovaný z použití extrahovaného textu na zadanou šablonu výsledku textu.

(Hodnoty zóny)
TextResults.zoneValues array of string

Pole obsahující text extrahovaný z každé zóny.

ApiRenameByBarcodePost200ApplicationJsonResponse

Name Cesta Typ Description
Čárový kód
BarcodeResult string

Řetězec vygenerovaný z použití extrahovaného textu na zadanou šablonu výsledku čárového kódu. Poznámka: Pokud je počet stránek větší než jeden, zřetězení všech stránek pomocí oddělovače stránek.

Results
BarcodeResults array of object

Pole obsahující seznam stránek a extrahované hodnoty čárových kódů

(Číslo stránky)
BarcodeResults.pageNumber string

Stránka, na které byl čárový kód nalezen

(Čárový kód stránky)
BarcodeResults.valueExtracted string

Řetězec vygenerovaný z použití extrahované hodnoty čárového kódu na zadanou šablonu výsledku čárového kódu.

(Hodnoty zóny)
BarcodeResults.zoneValues array of string

Pole obsahující čárový kód extrahovaný z každé zóny.

Zpráva o chybě
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Je úspěšný
IsSuccessful boolean

Pokud byl zjištěn čárový kód

Informace o licenci
LicenceInfo string

Informace o klíči předplatného rozhraní API

ApiSplitPost200ApplicationJsonResponse

Name Cesta Typ Description
Zpráva o chybě
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Je úspěšný
IsSuccessful boolean

Pokud byla shodná alespoň jedna rozdělená stránka, vrátí se true.

Informace o licenci
LicenceInfo string

Informace o klíči předplatného rozhraní API

Rozdělení výstupních souborů
SplittedFile array of object

Pole obsahující každý z rozdělených souborů společně s podrobnostmi, jako je vygenerovaný název souboru a číslo stránky.

(Obsah souboru)
SplittedFile.SplitFileContent byte

Základní řetězec 64 představující obsah souboru

(Název souboru)
SplittedFile.SplitFileName string

Řetězec obsahující vygenerovaný název souboru

(Rozsah stránek)
SplittedFile.pageNumber string

Rozsah stránek obsahující čísla stránek operace rozdělení

GetPDFInfoResponse

Name Cesta Typ Description
Povolit sestavení
AllowAssembly boolean

Povolí otočení, vložení nebo odstranění stránek.

Povolit degradovaný tisk
AllowDegradedPrinting boolean

Umožňuje tisk s nízkou kvalitou.

Povolit extrahování obsahu
AllowExtractContents boolean

Umožňuje extrakci textu a grafiky.

Povolit extrakci pro usnadnění přístupu
AllowExtractForAccessibility boolean

Umožňuje extrakci textu a grafiky v podpoře přístupnosti.

Povolit vyplnění formuláře
AllowFillInForm boolean

Povolit vyplňování polí formuláře.

Povolit úpravy poznámek
AllowModifyAnnotations boolean

Povolit úpravy poznámek.

Povolit úpravy obsahu
AllowModifyContents boolean

Povolit úpravy obsahu.

Povolit tisk
AllowPrinting boolean

Umožňuje tisk ve vysoké kvalitě.

Author
Author string

Kdo dokument vytvořil

Datum vytvoření
CreationDate string

Toto je datum a čas vytvoření SOUBORU PDF.

Tvůrce
Creator string

Původní aplikace nebo knihovna.

Zpráva o chybě
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Velikost souboru (bajty)
FileSize number

Velikost souboru v bajtech

Obsahuje skrytý text.
HasHiddenText boolean

Pokud má soubor PDF vrstvu OCR, vrátí se hodnota true.

Je zašifrováno
IsEncrypted boolean

Pokud je dokument zašifrovaný nebo ne, vrátí hodnotu true.

Je možné prohledávat
IsSearchable boolean

Pokud je soubor PDF prohledávatelný, vrátí se hodnota true.

Je úspěšný
IsSuccessful boolean

Vrátí hodnotu true, pokud akce proběhla úspěšně.

Klíčová slova
Keywords string

Klíčová slova mohou být oddělená čárkami.

Informace o licenci
LicenceInfo string

Shrnutí kvóty předplatného ve formátu JSON

Datum změny
ModifiedDate string

Tato vlastnost představuje datum a čas poslední změny PDF.

Počet stránek
NumberofPages integer

Počet stránek v souboru PDF.

Verze PDF
PDFversion number

Verze specifikace PDF, na které byl dokument sestaven.

Producer
Producer string

Produkt, který vytvořil PDF. V prvních dnech pdf by lidé použili aplikaci Creator, jako je Microsoft Word, napsat dokument, vytisknout ho do postscriptového souboru a pak producent bude Acrobat Distiller, aplikace, která převede soubor PostScriptu do PDF. V současné době jsou Tvůrci a producenti často stejné nebo jedno pole je ponecháno prázdné.

Předmět
Subject string

O čem je dokument.

Title
Title string

Název dokumentu.

Lapený
Trapped string

Tato vlastnost je logická hodnota, která označuje, zda byl dokument zachycen. Soutisk je předtiskový proces, který zavádí barevné oblasti do barevných oddělení, aby se překrývaly potenciální chyby registru.

XMP Metadata
XmpMetadata string

XMP (Extensible Metadata Platform) je standard ISO, původně vytvořený společností Adobe Systems Inc., pro vytváření, zpracování a výměnu standardizovaných a vlastních metadat pro digitální dokumenty a datové sady.

ocr_response

Data odpovědi pro operaci OCR

Name Cesta Typ Description
Zpráva o chybě
ErrorMessage string

Pokud je hodnota Je úspěšná, vrátíme chybovou zprávu.

Je úspěšný
IsSuccessful boolean

Vrátí hodnotu true, pokud byl OCR úspěšný.

Informace o licenci
LicenceInfo string

Informace o klíči předplatného rozhraní API

Obsah souboru protokolu
LogFileContent byte

Obsah protokolu operace

Zpracovaný obsah souboru
OutputFileContent byte

Soubor vygenerovaný převaděčem Aquaforest PDF.