Živiny - Extrakt z PDF (Preview)
Odemkněte výkonný text PDF a extrakci dat pomocí akce extrakce živin Document Converter. Bezproblémově načítejte text, data, extrahujte páry klíč-hodnota a využijte technologii OCR ke zpracování naskenovaných dokumentů. Ideální pro indexování, vyhledávání, analýzu obsahu a pracovní postupy strukturovaných dat.
Tento konektor je dostupný v následujících produktech a oblastech:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Všechny oblasti Power Automate s výjimkou následujících: – státní správa USA (GCC) – státní správa USA (GCC High) - China Cloud provozovaný společností 21Vianet - Ministerstvo obrany USA (DoD) |
| Logic Apps | Standard | Všechny oblasti Logic Apps s výjimkou následujících: – Oblasti Azure Government – Oblasti Azure China - Ministerstvo obrany USA (DoD) |
| Power Apps | Premium | Všechny oblasti Power Apps s výjimkou následujících: – státní správa USA (GCC) – státní správa USA (GCC High) - China Cloud provozovaný společností 21Vianet - Ministerstvo obrany USA (DoD) |
| Power Automate | Premium | Všechny oblasti Power Automate s výjimkou následujících: – státní správa USA (GCC) – státní správa USA (GCC High) - China Cloud provozovaný společností 21Vianet - Ministerstvo obrany USA (DoD) |
| Kontakt | |
|---|---|
| Název | Podpora živin (dříve Muhimbi) |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| Metadata konektoru | |
|---|---|
| Vydavatel | Muhimbi obchod jako živiny |
| Internetová stránka | https://www.nutrient.io/low-code/ |
| Zásady ochrany osobních údajů | https://www.nutrient.io/legal/privacy/ |
| Kategorie | Spolupráce; Obsah a soubory |
Extrahování textu a dat z souborů PDF
Převaděč dokumentů živin umožňuje extrahovat text, data nebo konkrétní stránky ze souborů PDF jako součást automatizovaných pracovních postupů v Power Automate. Text z obrázků můžete extrahovat také pomocí OCR.
Dostupné akce
- Extrahování párů klíč-hodnota
- Extrahování textu pomocí OCR
- Extrakce dat z souborů PDF
- Extrahování stránek PDF
- Extrakce textu z obrázků
- Extrahování textu z pdf souborů pomocí Power Automate
Podrobné pokyny k implementaci těchto akcí v pracovních postupech najdete v propojených průvodcích.
Požadavky
Chcete-li používat převaděč dokumentů živin, potřebujete bezplatný nebo zkušební účet. Informace o rozdílech mezi těmito typy účtů najdete v průvodci porovnáním .
Začínáme
Postupujte podle následujících kroků a začněte používat konektor Pro převod živin:
- Vyplňte tento formulář a zaregistrujte si 30denní zkušební verzi.
- Po odeslání formuláře obdržíte e-mail s podrobnostmi o aktivaci zkušební verze.
- V úvodním videu najdete návod k procesu.
- Podrobné pokyny najdete v průvodci převaděčem dokumentů pro Power Automate .
- Prozkoumejte kurzy Power Automate a Logic Apps pro praktické příklady.
Známé problémy a omezení
Dokumenty chráněné řešením IRM, DRM, RMS nebo AIP nelze zpracovat kvůli omezením zabezpečení.
Pokud potřebujete dotazy nebo pomoc, obraťte se na náš tým podpory.
Limity omezování
| Name | Volání | Období obnovení |
|---|---|---|
| Volání rozhraní API na připojení | 100 | 60 sekund |
Akce
| Extrahování párů klíč-hodnota z dokumentu PDF |
Identifikujte a extrahujte páry klíč-hodnota z dokumentů pro zpracování formulářů nebo pracovních postupů strukturovaných dat. |
| Extrahování textu z dokumentu PDF |
Umožňuje načíst textový obsah z dokumentů PDF pro snadné indexování, vyhledávání nebo analýzu obsahu. |
| Extrahování textu ze souboru PDF pomocí OCR |
Extrahujte text z naskenovaných dokumentů nebo obrázků pomocí technologie OCR, aby je bylo možné prohledávat a upravovat. |
Extrahování párů klíč-hodnota z dokumentu PDF
Identifikujte a extrahujte páry klíč-hodnota z dokumentů pro zpracování formulářů nebo pracovních postupů strukturovaných dat.
Parametry
| Name | Klíč | Vyžadováno | Typ | Description |
|---|---|---|---|---|
|
Název zdrojového souboru
|
source_file_name | True | string |
Název zdrojového souboru včetně přípony |
|
Obsah zdrojového souboru
|
source_file_content | True | byte |
Obsah souboru, který se má převést |
|
Jazyk OCR
|
ocr_language | string |
Kódy jazyka pro extrakci OCR a KVP oddělené operátorem +. Například eng+deu+fra by přidal angličtinu, němčinu a francouzštinu. |
|
|
DPI
|
dpi | enum |
Odebrání prázdných stránek v PDF |
|
|
Výstupní formát KVP
|
kvp_format | enum |
Výstupní formáty oddělené čárkami. Data KVP můžou být ve formátu JSON, CSV a XML. e.g. json,csv,xml |
|
|
Rozsah stránek
|
page_range | string |
Stránky, které má zpracovat KVP. Pro stránky 1 až 5 použijte řetězec 1 až 5 nebo použijte řetězec 1, 5, 6 k určení stránek 1 a 5 a 6. |
|
|
Automatickáota
|
autorotate | enum |
Nastavení na Ano automaticky otočí stránky, pokud text nemá správnou orientaci. |
|
|
Oříznutí symbolů
|
trim_symbols | enum |
Pokud tuto hodnotu nastavíte na Ano, odeberete z počátečního a koncového bodu hodnoty všechny symboly s výjimkou symbolů hash #nebo tečky. |
|
|
Zahrnout ohraničující pole s klíčem
|
include_key_bounding_box | enum |
Zahrnutí hodnot ohraničujícího rámečku pro klíč ve výstupu |
|
|
Zahrnout ohraničující pole hodnoty
|
include_value_bounding_box | enum |
Zahrnout hodnoty ohraničujícího rámečku pro hodnotu ve výstupu |
|
|
Zahrnout číslo stránky
|
include_page_number | enum |
Do výstupu zahrňte číslo stránky páru klíč-hodnota. |
|
|
Zahrnout jistotu
|
include_confidence | enum |
Do výstupu zahrňte skóre spolehlivosti páru klíč-hodnota. Spolehlivost se měří mezi 0 (bez spolehlivosti) a 100 (úplná spolehlivost). |
|
|
Prahová hodnota spolehlivosti
|
confidence_threshold | integer |
Prahová hodnota spolehlivosti musí být do výstupu zahrnuta do páru klíč-hodnota. Výsledky pod prahovou hodnotou se zahodí. |
|
|
Zahrnout typ
|
include_type | enum |
Do výstupu zahrňte datový typ páru klíč-hodnota. |
|
|
Očekávané klíče
|
expected_keys | string |
Řetězec JSON obsahující očekávané klíče a synonyma |
|
|
Selhání při chybě
|
fail_on_error | boolean |
Selhání při chybě |
Návraty
Data odpovědi pro všechny operace
- Body
- operation_response
Extrahování textu z dokumentu PDF
Umožňuje načíst textový obsah z dokumentů PDF pro snadné indexování, vyhledávání nebo analýzu obsahu.
Parametry
| Name | Klíč | Vyžadováno | Typ | Description |
|---|---|---|---|---|
|
Název zdrojového souboru
|
source_file_name | True | string |
Název zdrojového souboru včetně přípony |
|
Obsah zdrojového souboru
|
source_file_content | True | byte |
Obsah souboru, který se má převést |
|
Rozsah stránek
|
page_range | string |
Rozsah stránek pro extrakci textu z např. 1,5,8-12 |
|
|
Selhání při chybě
|
fail_on_error | boolean |
Selhání při chybě |
Návraty
Data odpovědi pro všechny operace
- Body
- operation_response
Extrahování textu ze souboru PDF pomocí OCR
Extrahujte text z naskenovaných dokumentů nebo obrázků pomocí technologie OCR, aby je bylo možné prohledávat a upravovat.
Parametry
| Name | Klíč | Vyžadováno | Typ | Description |
|---|---|---|---|---|
|
Název zdrojového souboru
|
source_file_name | True | string |
Název zdrojového souboru včetně přípony |
|
Obsah zdrojového souboru
|
source_file_content | True | byte |
Obsah souboru do OCR |
|
Jazyk
|
language | enum |
Jazyk |
|
|
Souřadnice X
|
x | string |
Souřadnice X (v bodech, 1/72 palce) |
|
|
Souřadnice Y
|
y | string |
Souřadnice Y (v bodech, 1/72 palce) |
|
|
Šířka
|
width | string |
Šířka oblasti OCR (v pts, 1/72 palce) |
|
|
Výška
|
height | string |
Výška oblasti OCR (v pts, 1/72 palce) |
|
|
Číslo stránky
|
page_number | string |
Číslo stránky (ponechte prázdné na všech stránkách OCR) |
|
|
Performance
|
performance | enum |
Výkon () |
|
|
Blacklist /whitelist
|
characters_option | enum |
Možnost Znaky |
|
|
Znaky
|
characters | string |
Znaky, které mají být na seznamu zakázaných nebo povolených |
|
|
Použití stránkování
|
paginate | boolean |
Stránkovat |
|
|
Selhání při chybě
|
fail_on_error | boolean |
Selhání při chybě |
Návraty
Data odpovědi pro operaci OCRText
Definice
ocr_operation_response
Data odpovědi pro operaci OCRText
| Name | Cesta | Typ | Description |
|---|---|---|---|
|
Out text
|
out_text | string |
Extrahovaný text OCRed ve formátu prostého textu |
|
Název základního souboru
|
base_file_name | string |
Název vstupního souboru bez přípony |
|
Kód výsledku
|
result_code | enum |
Kód výsledku operace. |
|
Podrobnosti o výsledku
|
result_details | string |
Podrobnosti výsledku operace |
operation_response
Data odpovědi pro všechny operace
| Name | Cesta | Typ | Description |
|---|---|---|---|
|
Zpracovaný obsah souboru
|
processed_file_content | byte |
Soubor vygenerovaný převaděčem Muhimbi. |
|
Název základního souboru
|
base_file_name | string |
Název vstupního souboru bez přípony |
|
Kód výsledku
|
result_code | enum |
Kód výsledku operace. |
|
Podrobnosti o výsledku
|
result_details | string |
Podrobnosti výsledku operace |