Megosztás:


Tápanyag – Kivonat PDF-ből (előzetes verzió)

Hatékony PDF-szöveg- és adatkinyerés feloldása a Tápanyag-dokumentumkonverter kinyerési műveleteivel. Zökkenőmentesen lekérheti a szöveget, az adatokat, kinyerheti a kulcs-érték párokat, és ocR-technológiát használhat a beolvasott dokumentumok feldolgozásához. Ideális indexeléshez, kereséshez, tartalomelemzéshez és strukturált adat-munkafolyamatokhoz.

Ez az összekötő a következő termékekben és régiókban érhető el:

Service Class Régiók
Copilot Studio prémium Az összes Power Automate-régió, kivéve a következőket:
     - USA kormánya (GCC)
     - Amerikai kormány (GCC High)
     - A 21Vianet által üzemeltetett China Cloud
     - Amerikai Védelmi Minisztérium (DoD)
Logikai alkalmazások Standard Az összes Logic Apps-régió , kivéve a következőket:
     - Azure Government-régiók
     - Azure China-régiók
     - Amerikai Védelmi Minisztérium (DoD)
Power Alkalmazások prémium Az összes Power Apps-régió , kivéve a következőket:
     - USA kormánya (GCC)
     - Amerikai kormány (GCC High)
     - A 21Vianet által üzemeltetett China Cloud
     - Amerikai Védelmi Minisztérium (DoD)
Power Automate prémium Az összes Power Automate-régió, kivéve a következőket:
     - USA kormánya (GCC)
     - Amerikai kormány (GCC High)
     - A 21Vianet által üzemeltetett China Cloud
     - Amerikai Védelmi Minisztérium (DoD)
Érintkezés
Név Tápanyag (korábbi nevén Muhimbi) támogatása
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Összekötő metaadatai
Kiadó Muhimbi kereskedelem, mint Tápanyag
Webhely https://www.nutrient.io/low-code/
Adatvédelmi irányelvek https://www.nutrient.io/legal/privacy/
Kategóriák Együttműködés; Tartalom és fájlok

Szöveg és adatok kinyerása PDF-fájlokból

A Tápanyag-dokumentumkonverter lehetővé teszi, hogy a Power Automate automatizált munkafolyamatainak részeként szövegeket, adatokat vagy adott lapokat nyerjen ki PDF-fájlokból. Az OCR használatával szöveget is kinyerhet a képekből.

Elérhető műveletek

A műveletek munkafolyamatokban való implementálásával kapcsolatos részletes útmutatásért tekintse meg a csatolt útmutatókat.

Előfeltételek

A Nutrient Document Converter használatához ingyenes vagy próbaverziós fiókra van szükség. Az összehasonlítási útmutatóban megismerheti a fióktípusok közötti különbségeket.

Kezdő lépések

A Tápanyag-dokumentumkonverter-összekötő használatának megkezdéséhez kövesse az alábbi lépéseket:

Ismert problémák és korlátozások

Az IRM-, DRM-, RMS- vagy AIP-megoldásokkal védett dokumentumok biztonsági korlátozások miatt nem dolgozhatók fel.

Kérdéseivel vagy segítségért forduljon támogatási csapatunkhoz.

Szabályozási korlátok

Name Hívások Megújítási időszak
API-hívások kapcsolatonként 100 60 másodperc

Műveletek

Kulcsértékpárok kinyerése PDF-dokumentumból

Kulcs-érték párok azonosítása és kinyerése dokumentumokból űrlapok vagy strukturált adat-munkafolyamatok feldolgozásához.

Szöveg kinyerása PDF-dokumentumból

Szöveges tartalom lekérése PDF-dokumentumokból egyszerű indexelés, keresés vagy tartalomelemzés céljából.

Szöveg kinyerése PDF-fájlból OCR használatával

Szöveg kinyerése beolvasott dokumentumokból vagy képekből OCR-technológiával, így kereshetővé és szerkeszthetővé válik.

Kulcsértékpárok kinyerése PDF-dokumentumból

Kulcs-érték párok azonosítása és kinyerése dokumentumokból űrlapok vagy strukturált adat-munkafolyamatok feldolgozásához.

Paraméterek

Name Kulcs Kötelező Típus Description
Forrásfájl neve
source_file_name True string

A forrásfájl neve a bővítményt is beleértve

Forrásfájl tartalma
source_file_content True byte

Az átalakítandó fájl tartalma

OCR nyelv
ocr_language string

Az OCR- és KVP-kinyerés nyelvi kódjai, "+" elválasztva. Az "eng+deu+fra" például angol, német és francia nyelveket adna hozzá.

DPI
dpi enum

Az üres lapok eltávolítása a PDF-ben

KVP kimeneti formátuma
kvp_format enum

A kimeneti formátumok vesszővel elválasztva. A KVP-adatok JSON-, CSV- és XML-kimenetek lehetnek. e.g. json,csv,xml

Oldaltartomány
page_range string

A KVP által feldolgozandó lapok. Az 1–5. oldal "1– 5" sztringjének használatával, vagy az 1, 5, 6 sztring használatával adja meg az 1. és az 5. és a 6. oldalt.

Automatikus formázás
autorotate enum

Ha ezt "Igen" értékre állítja, a program automatikusan elforgatja az oldalakat, ha a szöveg nem rendelkezik a megfelelő tájolással.

Metszetszimbólumok
trim_symbols enum

Ha ezt "Igen" értékre állítja, az értékek kezdetéről/végéről eltávolít minden szimbólumot, kivéve a "#" kivonatot vagy a pont "." szimbólumokat.

Kulcs határolókeretének belefoglalása
include_key_bounding_box enum

Adja meg a kulcs határolókeret-értékeit a kimenetben

Értékhatároló mező belefoglalása
include_value_bounding_box enum

Adja meg a kimenetben szereplő érték határolókeret-értékeit

Oldalszám belefoglalása
include_page_number enum

Adja meg a kulcsértékpár oldalszámát a kimenetben

Megbízhatóság belefoglalása
include_confidence enum

Adja meg a kulcsértékpár megbízhatósági pontszámát a kimenetben. A megbízhatóság mérése 0 (nincs megbízhatóság) és 100 (teljes megbízhatóság) között történik.

Megbízhatósági küszöbérték
confidence_threshold integer

A kulcsértékpárok megbízhatósági küszöbértékének el kell érnie, hogy szerepeljen a kimenetben. A küszöbérték alatti eredményeket a rendszer elveti.

Típus belefoglalása
include_type enum

Adja meg a kulcsértékpár adattípusát a kimenetben

Várt kulcsok
expected_keys string

A várt kulcsokat és szinonimákat tartalmazó JSON-sztring

Hiba miatt sikertelen
fail_on_error boolean

Hiba miatt sikertelen

Válaszok

Válaszadatok az összes művelethez

Szöveg kinyerása PDF-dokumentumból

Szöveges tartalom lekérése PDF-dokumentumokból egyszerű indexelés, keresés vagy tartalomelemzés céljából.

Paraméterek

Name Kulcs Kötelező Típus Description
Forrásfájl neve
source_file_name True string

A forrásfájl neve a bővítményt is beleértve

Forrásfájl tartalma
source_file_content True byte

Az átalakítandó fájl tartalma

Oldaltartomány
page_range string

A szöveg kinyeréséhez használható oldaltartomány, például 1,5,8-12

Hiba miatt sikertelen
fail_on_error boolean

Hiba miatt sikertelen

Válaszok

Válaszadatok az összes művelethez

Szöveg kinyerése PDF-fájlból OCR használatával

Szöveg kinyerése beolvasott dokumentumokból vagy képekből OCR-technológiával, így kereshetővé és szerkeszthetővé válik.

Paraméterek

Name Kulcs Kötelező Típus Description
Forrásfájl neve
source_file_name True string

A forrásfájl neve a bővítményt is beleértve

Forrásfájl tartalma
source_file_content True byte

A fájl tartalma az OCR-be

Nyelv
language enum

Nyelv

X koordináta
x string

X koordináta (Pts-ben, 1/72 hüvelykben)

Y koordináta
y string

Y koordináta (Pts-ben, 1/72 hüvelykben)

Szélesség
width string

Az OCR terület szélessége (Pts-ben, 1/72 hüvelykben)

Magasság
height string

Az OCR-terület magassága (Pts-ben, 1/72 hüvelykben)

Oldalszám
page_number string

Oldalszám (hagyja üresen az OCR-nek az összes oldalt)

Performance
performance enum

Teljesítmény ()

Feketelista / engedélyezési lista
characters_option enum

Karakterek beállítás

Karakterek
characters string

Karakterek feketelistára vagy engedélyezési listára

Lapozás használata
paginate boolean

Lapszámozás

Hiba miatt sikertelen
fail_on_error boolean

Hiba miatt sikertelen

Válaszok

Válaszadatok az OCRText művelethez

Definíciók

ocr_operation_response

Válaszadatok az OCRText művelethez

Name Elérési út Típus Description
Szöveg kiírása
out_text string

Kinyert OCRed-szöveg egyszerű szövegben.

Alapfájl neve
base_file_name string

A bővítmény nélküli bemeneti fájl neve.

Eredménykód
result_code enum

Művelet eredménykódja.

Eredmény részletei
result_details string

A művelet eredményének részletei.

operation_response

Válaszadatok az összes művelethez

Name Elérési út Típus Description
Feldolgozott fájltartalom
processed_file_content byte

A Muhimbi-konverter által létrehozott fájl.

Alapfájl neve
base_file_name string

A bővítmény nélküli bemeneti fájl neve.

Eredménykód
result_code enum

Művelet eredménykódja.

Eredmény részletei
result_details string

A művelet eredményének részletei.