Voedingsstof - Extraheren uit PDF (preview)
Ontgrendel krachtige PDF-tekst- en gegevensextractie met Extract-acties van het voedingsdocumentconversieprogramma. Haal naadloos tekst, gegevens op, extraheer sleutel-waardeparen en maak gebruik van OCR-technologie om gescande documenten te verwerken. Ideaal voor indexering, zoekopdrachten, inhoudsanalyse en gestructureerde gegevenswerkstromen.
Deze connector is beschikbaar in de volgende producten en regio's:
| Dienst | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Alle Power Automate-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Logic-apps | Standaard | Alle Logic Apps-regio's , met uitzondering van het volgende: - Azure Government-regio's - Azure China-regio's - Us Department of Defense (DoD) |
| Power Apps | Premium | Alle Power Apps-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Alle Power Automate-regio's , met uitzondering van het volgende: - Amerikaanse overheid (GCC) - Amerikaanse overheid (GCC High) - China Cloud beheerd door 21Vianet - Us Department of Defense (DoD) |
| Contactpersoon | |
|---|---|
| Naam | Ondersteuning voor voedingsstoffen (voorheen Muhimbi) |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| E-mailen | support+low-code@nutrient.io |
| Connector-metagegevens | |
|---|---|
| Uitgever | Muhimbi handel als voedingsstof |
| Webpagina | https://www.nutrient.io/low-code/ |
| Privacybeleid | https://www.nutrient.io/legal/privacy/ |
| Categorieën | Samenwerking; Inhoud en bestanden |
Tekst en gegevens extraheren uit PDF-bestanden
Met Het conversieprogramma voor voedingsdocument kunt u tekst, gegevens of specifieke pagina's uit PDF-bestanden extraheren als onderdeel van geautomatiseerde werkstromen in Power Automate. U kunt ook tekst extraheren uit afbeeldingen met OCR.
Beschikbare acties
- Sleutel-waardeparen extraheren
- Tekst extraheren met OCR
- Gegevens extraheren uit PDF-bestanden
- PDF-pagina's extraheren
- Tekst extraheren uit afbeeldingen
- Tekst extraheren uit PDF-bestanden met Behulp van Power Automate
Raadpleeg de gekoppelde handleidingen voor stapsgewijze instructies voor het implementeren van deze acties in uw werkstromen.
Vereiste voorwaarden
U hebt een gratis account of proefaccount nodig om Het Conversieprogramma voor voedingsdocument te gebruiken. Raadpleeg de vergelijkingshandleiding om inzicht te hebben in de verschillen tussen deze accounttypen.
Aan de slag
Volg de onderstaande stappen om te beginnen met het gebruik van de Connector voor het Voedingsdocumentconversieprogramma:
- Meld u aan voor een proefversie van 30 dagen door dit formulier in te vullen.
- Nadat u het formulier hebt ingediend, ontvangt u een e-mail met de activeringsgegevens van uw proefabonnement.
- Raadpleeg de introductievideo voor een overzicht van het proces.
- Lees de handleiding documentconversieprogramma voor Power Automate voor gedetailleerde instructies.
- Bekijk de zelfstudies voor Power Automate en Logic Apps voor praktische voorbeelden.
Bekende problemen en beperkingen
Documenten die zijn beveiligd met IRM-, DRM-, RMS- of AIP-oplossingen kunnen niet worden verwerkt vanwege beveiligingsbeperkingen.
Neem voor vragen of hulp contact op met ons ondersteuningsteam.
Beperkingslimieten
| Name | Aanroepen | Verlengingsperiode |
|---|---|---|
| API-aanroepen per verbinding | 100 | 60 seconden |
Acties
| Sleutel-waardeparen extraheren uit een PDF-document |
Sleutel-waardeparen identificeren en extraheren uit documenten voor het verwerken van formulieren of gestructureerde gegevenswerkstromen. |
| Tekst extraheren uit een PDF-bestand met OCR |
Extraheer tekst uit gescande documenten of afbeeldingen met ocr-technologie, waardoor ze doorzoekbaar en bewerkbaar zijn. |
| Tekst extraheren uit een PDF-document |
Tekstinhoud ophalen uit PDF-documenten voor eenvoudige indexering, zoekopdrachten of inhoudsanalyse. |
Sleutel-waardeparen extraheren uit een PDF-document
Sleutel-waardeparen identificeren en extraheren uit documenten voor het verwerken van formulieren of gestructureerde gegevenswerkstromen.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Naam van bronbestand
|
source_file_name | True | string |
Naam van het bronbestand inclusief extensie |
|
Inhoud van bronbestand
|
source_file_content | True | byte |
Inhoud van het bestand dat moet worden geconverteerd |
|
OCR-taal
|
ocr_language | string |
De taalcodes voor OCR- en KVP-extractie, gescheiden door +. 'eng+deu+fra' voegt bijvoorbeeld Engels, Duits en Frans toe. |
|
|
DPI
|
dpi | enum |
De lege pagina's in het PDF-bestand verwijderen |
|
|
KVP-uitvoerindeling
|
kvp_format | enum |
De uitvoerindelingen worden gescheiden door komma's. KVP-gegevens kunnen worden uitgevoerd in JSON, CSV en XML. e.g. json,CSV,XML |
|
|
Paginabereik
|
page_range | string |
De pagina's die moeten worden verwerkt door KVP. Gebruik de tekenreeks '1 - 5' voor pagina's 1 tot en met 5 of gebruik de tekenreeks '1, 5, 6' om pagina's 1 en 5 en 6 op te geven. |
|
|
Automatisch roteren
|
autorotate | enum |
Als u dit instelt op Ja, worden pagina's automatisch geroteerd als de tekst niet de juiste afdrukstand heeft. |
|
|
Symbolen knippen
|
trim_symbols | enum |
Als u dit instelt op Ja, worden alle symbolen uit het begin/einde van de waarden verwijderd, met uitzondering van de hash '#' of punt '.' symbolen. |
|
|
Sleutelgrensvak opnemen
|
include_key_bounding_box | enum |
De waarden van het begrenzingsvak voor de sleutel opnemen in de uitvoer |
|
|
Vak Waardegrens opnemen
|
include_value_bounding_box | enum |
De waarden van het begrenzingsvak opnemen voor de waarde in de uitvoer |
|
|
Paginanummer opnemen
|
include_page_number | enum |
Het paginanummer voor het sleutelwaardepaar opnemen in de uitvoer |
|
|
Betrouwbaarheid opnemen
|
include_confidence | enum |
Neem de betrouwbaarheidsscore voor het sleutelwaardepaar op in de uitvoer. Betrouwbaarheid wordt gemeten tussen 0 (geen betrouwbaarheid) en 100 (volledig vertrouwen). |
|
|
Betrouwbaarheidsdrempel
|
confidence_threshold | integer |
De betrouwbaarheidsdrempel die een sleutelwaardepaar moet bereiken om in de uitvoer te worden opgenomen. Resultaten onder de drempelwaarde worden verwijderd. |
|
|
Type opnemen
|
include_type | enum |
Het gegevenstype voor het sleutelwaardepaar opnemen in de uitvoer |
|
|
Verwachte sleutels
|
expected_keys | string |
De JSON-tekenreeks met de verwachte sleutels en synoniemen |
|
|
Fout bij mislukt
|
fail_on_error | boolean |
Fout bij mislukt |
Retouren
Antwoordgegevens voor alle bewerkingen
- Body
- operation_response
Tekst extraheren uit een PDF-bestand met OCR
Extraheer tekst uit gescande documenten of afbeeldingen met ocr-technologie, waardoor ze doorzoekbaar en bewerkbaar zijn.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Naam van bronbestand
|
source_file_name | True | string |
Naam van het bronbestand inclusief extensie |
|
Inhoud van bronbestand
|
source_file_content | True | byte |
Inhoud van het bestand naar OCR |
|
Language
|
language | enum |
Language |
|
|
X-coördinaat
|
x | string |
X-coördinaat (in Pts, 1/72 van een inch) |
|
|
Y-coördinaat
|
y | string |
Y-coördinaat (in Pts, 1/72 van een inch) |
|
|
Breedte
|
width | string |
Breedte van het OCR-gebied (in Pts, 1/72 van een inch) |
|
|
Hoogte
|
height | string |
Hoogte van het OCR-gebied (in Pts, 1/72 van een inch) |
|
|
Paginanummer
|
page_number | string |
Paginanummer (leeg laten voor OCR alle pagina's) |
|
|
Performance
|
performance | enum |
Prestaties () |
|
|
Zwarte lijst/whitelist
|
characters_option | enum |
Optie Tekens |
|
|
Karakters
|
characters | string |
Tekens voor zwarte lijst of whitelist |
|
|
Paginering gebruiken
|
paginate | boolean |
Paginate |
|
|
Fout bij mislukt
|
fail_on_error | boolean |
Fout bij mislukt |
Retouren
Antwoordgegevens voor OCRText-bewerking
Tekst extraheren uit een PDF-document
Tekstinhoud ophalen uit PDF-documenten voor eenvoudige indexering, zoekopdrachten of inhoudsanalyse.
Parameters
| Name | Sleutel | Vereist | Type | Description |
|---|---|---|---|---|
|
Naam van bronbestand
|
source_file_name | True | string |
Naam van het bronbestand inclusief extensie |
|
Inhoud van bronbestand
|
source_file_content | True | byte |
Inhoud van het bestand dat moet worden geconverteerd |
|
Paginabereik
|
page_range | string |
Het paginabereik voor het extraheren van tekst uit bijvoorbeeld 1,5,8-12 |
|
|
Fout bij mislukt
|
fail_on_error | boolean |
Fout bij mislukt |
Retouren
Antwoordgegevens voor alle bewerkingen
- Body
- operation_response
Definities
ocr_operation_response
Antwoordgegevens voor OCRText-bewerking
| Name | Pad | Type | Description |
|---|---|---|---|
|
Tekst uit
|
out_text | string |
Geëxtraheerde OCRed-tekst in tekst zonder opmaak. |
|
Basisbestandsnaam
|
base_file_name | string |
Naam van het invoerbestand zonder de extensie. |
|
Resultaatcode
|
result_code | enum |
Resultaatcode van bewerking. |
|
Resultaatdetails
|
result_details | string |
Details van bewerkingsresultaat. |
operation_response
Antwoordgegevens voor alle bewerkingen
| Name | Pad | Type | Description |
|---|---|---|---|
|
Verwerkte bestandsinhoud
|
processed_file_content | byte |
Bestand gegenereerd door het Muhimbi-conversieprogramma. |
|
Basisbestandsnaam
|
base_file_name | string |
Naam van het invoerbestand zonder de extensie. |
|
Resultaatcode
|
result_code | enum |
Resultaatcode van bewerking. |
|
Resultaatdetails
|
result_details | string |
Details van bewerkingsresultaat. |