Delen via


Voedingsstof - Extraheren uit PDF (preview)

Ontgrendel krachtige PDF-tekst- en gegevensextractie met Extract-acties van het voedingsdocumentconversieprogramma. Haal naadloos tekst, gegevens op, extraheer sleutel-waardeparen en maak gebruik van OCR-technologie om gescande documenten te verwerken. Ideaal voor indexering, zoekopdrachten, inhoudsanalyse en gestructureerde gegevenswerkstromen.

Deze connector is beschikbaar in de volgende producten en regio's:

Dienst Class Regions
Copilot Studio Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Logic-apps Standaard Alle Logic Apps-regio's , met uitzondering van het volgende:
     - Azure Government-regio's
     - Azure China-regio's
     - Us Department of Defense (DoD)
Power Apps Premium Alle Power Apps-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Power Automate Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Contactpersoon
Naam Ondersteuning voor voedingsstoffen (voorheen Muhimbi)
URL https://support.nutrient.io/hc/en-us/requests/new
E-mailen support+low-code@nutrient.io
Connector-metagegevens
Uitgever Muhimbi handel als voedingsstof
Webpagina https://www.nutrient.io/low-code/
Privacybeleid https://www.nutrient.io/legal/privacy/
Categorieën Samenwerking; Inhoud en bestanden

Tekst en gegevens extraheren uit PDF-bestanden

Met Het conversieprogramma voor voedingsdocument kunt u tekst, gegevens of specifieke pagina's uit PDF-bestanden extraheren als onderdeel van geautomatiseerde werkstromen in Power Automate. U kunt ook tekst extraheren uit afbeeldingen met OCR.

Beschikbare acties

Raadpleeg de gekoppelde handleidingen voor stapsgewijze instructies voor het implementeren van deze acties in uw werkstromen.

Vereiste voorwaarden

U hebt een gratis account of proefaccount nodig om Het Conversieprogramma voor voedingsdocument te gebruiken. Raadpleeg de vergelijkingshandleiding om inzicht te hebben in de verschillen tussen deze accounttypen.

Aan de slag

Volg de onderstaande stappen om te beginnen met het gebruik van de Connector voor het Voedingsdocumentconversieprogramma:

Bekende problemen en beperkingen

Documenten die zijn beveiligd met IRM-, DRM-, RMS- of AIP-oplossingen kunnen niet worden verwerkt vanwege beveiligingsbeperkingen.

Neem voor vragen of hulp contact op met ons ondersteuningsteam.

Beperkingslimieten

Name Aanroepen Verlengingsperiode
API-aanroepen per verbinding 100 60 seconden

Acties

Sleutel-waardeparen extraheren uit een PDF-document

Sleutel-waardeparen identificeren en extraheren uit documenten voor het verwerken van formulieren of gestructureerde gegevenswerkstromen.

Tekst extraheren uit een PDF-bestand met OCR

Extraheer tekst uit gescande documenten of afbeeldingen met ocr-technologie, waardoor ze doorzoekbaar en bewerkbaar zijn.

Tekst extraheren uit een PDF-document

Tekstinhoud ophalen uit PDF-documenten voor eenvoudige indexering, zoekopdrachten of inhoudsanalyse.

Sleutel-waardeparen extraheren uit een PDF-document

Sleutel-waardeparen identificeren en extraheren uit documenten voor het verwerken van formulieren of gestructureerde gegevenswerkstromen.

Parameters

Name Sleutel Vereist Type Description
Naam van bronbestand
source_file_name True string

Naam van het bronbestand inclusief extensie

Inhoud van bronbestand
source_file_content True byte

Inhoud van het bestand dat moet worden geconverteerd

OCR-taal
ocr_language string

De taalcodes voor OCR- en KVP-extractie, gescheiden door +. 'eng+deu+fra' voegt bijvoorbeeld Engels, Duits en Frans toe.

DPI
dpi enum

De lege pagina's in het PDF-bestand verwijderen

KVP-uitvoerindeling
kvp_format enum

De uitvoerindelingen worden gescheiden door komma's. KVP-gegevens kunnen worden uitgevoerd in JSON, CSV en XML. e.g. json,CSV,XML

Paginabereik
page_range string

De pagina's die moeten worden verwerkt door KVP. Gebruik de tekenreeks '1 - 5' voor pagina's 1 tot en met 5 of gebruik de tekenreeks '1, 5, 6' om pagina's 1 en 5 en 6 op te geven.

Automatisch roteren
autorotate enum

Als u dit instelt op Ja, worden pagina's automatisch geroteerd als de tekst niet de juiste afdrukstand heeft.

Symbolen knippen
trim_symbols enum

Als u dit instelt op Ja, worden alle symbolen uit het begin/einde van de waarden verwijderd, met uitzondering van de hash '#' of punt '.' symbolen.

Sleutelgrensvak opnemen
include_key_bounding_box enum

De waarden van het begrenzingsvak voor de sleutel opnemen in de uitvoer

Vak Waardegrens opnemen
include_value_bounding_box enum

De waarden van het begrenzingsvak opnemen voor de waarde in de uitvoer

Paginanummer opnemen
include_page_number enum

Het paginanummer voor het sleutelwaardepaar opnemen in de uitvoer

Betrouwbaarheid opnemen
include_confidence enum

Neem de betrouwbaarheidsscore voor het sleutelwaardepaar op in de uitvoer. Betrouwbaarheid wordt gemeten tussen 0 (geen betrouwbaarheid) en 100 (volledig vertrouwen).

Betrouwbaarheidsdrempel
confidence_threshold integer

De betrouwbaarheidsdrempel die een sleutelwaardepaar moet bereiken om in de uitvoer te worden opgenomen. Resultaten onder de drempelwaarde worden verwijderd.

Type opnemen
include_type enum

Het gegevenstype voor het sleutelwaardepaar opnemen in de uitvoer

Verwachte sleutels
expected_keys string

De JSON-tekenreeks met de verwachte sleutels en synoniemen

Fout bij mislukt
fail_on_error boolean

Fout bij mislukt

Retouren

Antwoordgegevens voor alle bewerkingen

Tekst extraheren uit een PDF-bestand met OCR

Extraheer tekst uit gescande documenten of afbeeldingen met ocr-technologie, waardoor ze doorzoekbaar en bewerkbaar zijn.

Parameters

Name Sleutel Vereist Type Description
Naam van bronbestand
source_file_name True string

Naam van het bronbestand inclusief extensie

Inhoud van bronbestand
source_file_content True byte

Inhoud van het bestand naar OCR

Language
language enum

Language

X-coördinaat
x string

X-coördinaat (in Pts, 1/72 van een inch)

Y-coördinaat
y string

Y-coördinaat (in Pts, 1/72 van een inch)

Breedte
width string

Breedte van het OCR-gebied (in Pts, 1/72 van een inch)

Hoogte
height string

Hoogte van het OCR-gebied (in Pts, 1/72 van een inch)

Paginanummer
page_number string

Paginanummer (leeg laten voor OCR alle pagina's)

Performance
performance enum

Prestaties ()

Zwarte lijst/whitelist
characters_option enum

Optie Tekens

Karakters
characters string

Tekens voor zwarte lijst of whitelist

Paginering gebruiken
paginate boolean

Paginate

Fout bij mislukt
fail_on_error boolean

Fout bij mislukt

Retouren

Antwoordgegevens voor OCRText-bewerking

Tekst extraheren uit een PDF-document

Tekstinhoud ophalen uit PDF-documenten voor eenvoudige indexering, zoekopdrachten of inhoudsanalyse.

Parameters

Name Sleutel Vereist Type Description
Naam van bronbestand
source_file_name True string

Naam van het bronbestand inclusief extensie

Inhoud van bronbestand
source_file_content True byte

Inhoud van het bestand dat moet worden geconverteerd

Paginabereik
page_range string

Het paginabereik voor het extraheren van tekst uit bijvoorbeeld 1,5,8-12

Fout bij mislukt
fail_on_error boolean

Fout bij mislukt

Retouren

Antwoordgegevens voor alle bewerkingen

Definities

ocr_operation_response

Antwoordgegevens voor OCRText-bewerking

Name Pad Type Description
Tekst uit
out_text string

Geëxtraheerde OCRed-tekst in tekst zonder opmaak.

Basisbestandsnaam
base_file_name string

Naam van het invoerbestand zonder de extensie.

Resultaatcode
result_code enum

Resultaatcode van bewerking.

Resultaatdetails
result_details string

Details van bewerkingsresultaat.

operation_response

Antwoordgegevens voor alle bewerkingen

Name Pad Type Description
Verwerkte bestandsinhoud
processed_file_content byte

Bestand gegenereerd door het Muhimbi-conversieprogramma.

Basisbestandsnaam
base_file_name string

Naam van het invoerbestand zonder de extensie.

Resultaatcode
result_code enum

Resultaatcode van bewerking.

Resultaatdetails
result_details string

Details van bewerkingsresultaat.