Sdílet prostřednictvím


Živiny - Extrakt z PDF (Preview)

Odemkněte výkonný text PDF a extrakci dat pomocí akce extrakce živin Document Converter. Bezproblémově načítejte text, data, extrahujte páry klíč-hodnota a využijte technologii OCR ke zpracování naskenovaných dokumentů. Ideální pro indexování, vyhledávání, analýzu obsahu a pracovní postupy strukturovaných dat.

Tento konektor je dostupný v následujících produktech a oblastech:

Service Class Regions
Copilot Studio Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Logic Apps Standard Všechny oblasti Logic Apps s výjimkou následujících:
     – Oblasti Azure Government
     – Oblasti Azure China
     - Ministerstvo obrany USA (DoD)
Power Apps Premium Všechny oblasti Power Apps s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Power Automate Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Kontakt
Název Podpora živin (dříve Muhimbi)
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Metadata konektoru
Vydavatel Muhimbi obchod jako živiny
Internetová stránka https://www.nutrient.io/low-code/
Zásady ochrany osobních údajů https://www.nutrient.io/legal/privacy/
Kategorie Spolupráce; Obsah a soubory

Extrahování textu a dat z souborů PDF

Převaděč dokumentů živin umožňuje extrahovat text, data nebo konkrétní stránky ze souborů PDF jako součást automatizovaných pracovních postupů v Power Automate. Text z obrázků můžete extrahovat také pomocí OCR.

Dostupné akce

Podrobné pokyny k implementaci těchto akcí v pracovních postupech najdete v propojených průvodcích.

Požadavky

Chcete-li používat převaděč dokumentů živin, potřebujete bezplatný nebo zkušební účet. Informace o rozdílech mezi těmito typy účtů najdete v průvodci porovnáním .

Začínáme

Postupujte podle následujících kroků a začněte používat konektor Pro převod živin:

Známé problémy a omezení

Dokumenty chráněné řešením IRM, DRM, RMS nebo AIP nelze zpracovat kvůli omezením zabezpečení.

Pokud potřebujete dotazy nebo pomoc, obraťte se na náš tým podpory.

Limity omezování

Name Volání Období obnovení
Volání rozhraní API na připojení 100 60 sekund

Akce

Extrahování párů klíč-hodnota z dokumentu PDF

Identifikujte a extrahujte páry klíč-hodnota z dokumentů pro zpracování formulářů nebo pracovních postupů strukturovaných dat.

Extrahování textu z dokumentu PDF

Umožňuje načíst textový obsah z dokumentů PDF pro snadné indexování, vyhledávání nebo analýzu obsahu.

Extrahování textu ze souboru PDF pomocí OCR

Extrahujte text z naskenovaných dokumentů nebo obrázků pomocí technologie OCR, aby je bylo možné prohledávat a upravovat.

Extrahování párů klíč-hodnota z dokumentu PDF

Identifikujte a extrahujte páry klíč-hodnota z dokumentů pro zpracování formulářů nebo pracovních postupů strukturovaných dat.

Parametry

Name Klíč Vyžadováno Typ Description
Název zdrojového souboru
source_file_name True string

Název zdrojového souboru včetně přípony

Obsah zdrojového souboru
source_file_content True byte

Obsah souboru, který se má převést

Jazyk OCR
ocr_language string

Kódy jazyka pro extrakci OCR a KVP oddělené operátorem +. Například eng+deu+fra by přidal angličtinu, němčinu a francouzštinu.

DPI
dpi enum

Odebrání prázdných stránek v PDF

Výstupní formát KVP
kvp_format enum

Výstupní formáty oddělené čárkami. Data KVP můžou být ve formátu JSON, CSV a XML. e.g. json,csv,xml

Rozsah stránek
page_range string

Stránky, které má zpracovat KVP. Pro stránky 1 až 5 použijte řetězec 1 až 5 nebo použijte řetězec 1, 5, 6 k určení stránek 1 a 5 a 6.

Automatickáota
autorotate enum

Nastavení na Ano automaticky otočí stránky, pokud text nemá správnou orientaci.

Oříznutí symbolů
trim_symbols enum

Pokud tuto hodnotu nastavíte na Ano, odeberete z počátečního a koncového bodu hodnoty všechny symboly s výjimkou symbolů hash #nebo tečky.

Zahrnout ohraničující pole s klíčem
include_key_bounding_box enum

Zahrnutí hodnot ohraničujícího rámečku pro klíč ve výstupu

Zahrnout ohraničující pole hodnoty
include_value_bounding_box enum

Zahrnout hodnoty ohraničujícího rámečku pro hodnotu ve výstupu

Zahrnout číslo stránky
include_page_number enum

Do výstupu zahrňte číslo stránky páru klíč-hodnota.

Zahrnout jistotu
include_confidence enum

Do výstupu zahrňte skóre spolehlivosti páru klíč-hodnota. Spolehlivost se měří mezi 0 (bez spolehlivosti) a 100 (úplná spolehlivost).

Prahová hodnota spolehlivosti
confidence_threshold integer

Prahová hodnota spolehlivosti musí být do výstupu zahrnuta do páru klíč-hodnota. Výsledky pod prahovou hodnotou se zahodí.

Zahrnout typ
include_type enum

Do výstupu zahrňte datový typ páru klíč-hodnota.

Očekávané klíče
expected_keys string

Řetězec JSON obsahující očekávané klíče a synonyma

Selhání při chybě
fail_on_error boolean

Selhání při chybě

Návraty

Data odpovědi pro všechny operace

Extrahování textu z dokumentu PDF

Umožňuje načíst textový obsah z dokumentů PDF pro snadné indexování, vyhledávání nebo analýzu obsahu.

Parametry

Name Klíč Vyžadováno Typ Description
Název zdrojového souboru
source_file_name True string

Název zdrojového souboru včetně přípony

Obsah zdrojového souboru
source_file_content True byte

Obsah souboru, který se má převést

Rozsah stránek
page_range string

Rozsah stránek pro extrakci textu z např. 1,5,8-12

Selhání při chybě
fail_on_error boolean

Selhání při chybě

Návraty

Data odpovědi pro všechny operace

Extrahování textu ze souboru PDF pomocí OCR

Extrahujte text z naskenovaných dokumentů nebo obrázků pomocí technologie OCR, aby je bylo možné prohledávat a upravovat.

Parametry

Name Klíč Vyžadováno Typ Description
Název zdrojového souboru
source_file_name True string

Název zdrojového souboru včetně přípony

Obsah zdrojového souboru
source_file_content True byte

Obsah souboru do OCR

Jazyk
language enum

Jazyk

Souřadnice X
x string

Souřadnice X (v bodech, 1/72 palce)

Souřadnice Y
y string

Souřadnice Y (v bodech, 1/72 palce)

Šířka
width string

Šířka oblasti OCR (v pts, 1/72 palce)

Výška
height string

Výška oblasti OCR (v pts, 1/72 palce)

Číslo stránky
page_number string

Číslo stránky (ponechte prázdné na všech stránkách OCR)

Performance
performance enum

Výkon ()

Blacklist /whitelist
characters_option enum

Možnost Znaky

Znaky
characters string

Znaky, které mají být na seznamu zakázaných nebo povolených

Použití stránkování
paginate boolean

Stránkovat

Selhání při chybě
fail_on_error boolean

Selhání při chybě

Návraty

Data odpovědi pro operaci OCRText

Definice

ocr_operation_response

Data odpovědi pro operaci OCRText

Name Cesta Typ Description
Out text
out_text string

Extrahovaný text OCRed ve formátu prostého textu

Název základního souboru
base_file_name string

Název vstupního souboru bez přípony

Kód výsledku
result_code enum

Kód výsledku operace.

Podrobnosti o výsledku
result_details string

Podrobnosti výsledku operace

operation_response

Data odpovědi pro všechny operace

Name Cesta Typ Description
Zpracovaný obsah souboru
processed_file_content byte

Soubor vygenerovaný převaděčem Muhimbi.

Název základního souboru
base_file_name string

Název vstupního souboru bez přípony

Kód výsledku
result_code enum

Kód výsledku operace.

Podrobnosti o výsledku
result_details string

Podrobnosti výsledku operace