Delen via


Documentverwerkingsmodellen

Belangrijk

  • Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling. Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
  • De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-07-31-preview.
  • Openbare preview-versie 2024-07-31-preview is momenteel alleen beschikbaar in de volgende Azure-regio's. Houd er rekening mee dat het aangepaste model voor generatieve (extractie van documentvelden) in AI Studio alleen beschikbaar is in de regio VS - noord-centraal:
    • VS - oost
    • VS - west 2
    • Europa -west
    • VS - noord-centraal

Deze inhoud is van toepassing op: vinkje v4.0 (preview) | Vorige versies:blauw-vinkje v3.1 (GA)blauw-vinkje v3.0 (GA)blauw-vinkje v2.1 (GA)

Deze inhoud is van toepassing op: vinkje v3.1 (GA) | Nieuwste versie:paars vinkje v4.0 (preview) | Vorige versies: blauw-vinkje v3.0blauw-vinkje v2.1

Deze inhoud is van toepassing op: vinkje v3.0 (GA) | Nieuwste versies:paars vinkje v4.0 (preview)paars vinkje v3.1 | Vorige versie: blauw-vinkje v2.1

Deze inhoud is van toepassing op: vinkje v2.1 | Nieuwste versie: blauw-vinkje v4.0 (preview)

Azure AI Document Intelligence ondersteunt een groot aantal modellen waarmee u intelligente documentverwerking kunt toevoegen aan uw apps en stromen. U kunt een vooraf samengesteld domeinspecifiek model gebruiken of een aangepast model trainen dat is afgestemd op uw specifieke bedrijfsbehoefte en gebruiksvoorbeelden. Document Intelligence kan worden gebruikt met de REST API of Python-, C#-, Java- en JavaScript-clientbibliotheken.

Notitie

  • Documentverwerkingsprojecten die betrekking hebben op financiële gegevens, beschermde gezondheidsgegevens, persoonsgegevens of zeer gevoelige gegevens, vereisen zorgvuldige aandacht.
  • Zorg ervoor dat u voldoet aan alle nationale/regionale en branchespecifieke vereisten.

Overzicht van modellen

In de volgende tabel ziet u de beschikbare modellen voor elke huidige preview en stabiele API:

Modeltype Model 2024-02-29-preview
2023-10-31-preview
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Modellen voor documentanalyse Lezen ✔️ ✔️ ✔️ n.v.t.
Modellen voor documentanalyse Indeling ✔️ ✔️ ✔️ ✔️
Modellen voor documentanalyse Algemeen document verplaatst naar indeling** ✔️ ✔️ n.v.t.
Vooraf samengestelde modellen Bankcontrole ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Bankafschrift ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Paystub ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Contract ✔️ ✔️ n.v.t. n.v.t.
Vooraf samengestelde modellen Zorgverzekeringskaart ✔️ ✔️ ✔️ n.v.t.
Vooraf samengestelde modellen Id-document ✔️ ✔️ ✔️ ✔️
Vooraf samengestelde modellen Factuur ✔️ ✔️ ✔️ ✔️
Vooraf samengestelde modellen Kwitantie ✔️ ✔️ ✔️ ✔️
Vooraf samengestelde modellen Verenigde Amerikaanse belasting* ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen US 1040 Tax* ✔️ ✔️ n.v.t. n.v.t.
Vooraf samengestelde modellen US 1098 Tax* ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen US 1099 Tax* ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Amerikaanse W2-belasting ✔️ ✔️ ✔️ n.v.t.
Vooraf samengestelde modellen US Mortgage 1003 URLA ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen US Mortgage 1004 URAR ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Amerikaanse hypotheek 1005 ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen US Mortgage 1008 Summary ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Openbaarmaking van de sluiting van de Amerikaanse hypotheek ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Huwelijksakte ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Creditcard ✔️ n.v.t. n.v.t. n.v.t.
Vooraf samengestelde modellen Visitekaartje deprecated ✔️ ✔️ ✔️
Aangepast classificatiemodel Aangepaste classificatie ✔️ ✔️ n.v.t. n.v.t.
Aangepast Generatiemodel Aangepast Generatiemodel ✔️ n.v.t. n.v.t. n.v.t.
Aangepast extractiemodel Aangepaste neurale ✔️ ✔️ ✔️ n.v.t.
Aangepastextractiemodel Aangepaste sjabloon ✔️ ✔️ ✔️ ✔️
Aangepast extractiemodel Aangepast samengesteld ✔️ ✔️ ✔️ ✔️
Alle modellen Mogelijkheden voor invoegtoepassingen ✔️ ✔️ n.v.t. n.v.t.

* - Bevat submodellen. Bekijk de modelspecifieke informatie voor ondersteunde variaties en subtypen.

Latentie

Latentie is de hoeveelheid tijd die een API-server nodig heeft om een binnenkomende aanvraag te verwerken en te verwerken en het uitgaande antwoord aan de client te leveren. De tijd die nodig is om een document te analyseren, is afhankelijk van de grootte (bijvoorbeeld het aantal pagina's) en de bijbehorende inhoud op elke pagina. Document Intelligence is een multitenant-service waarbij latentie voor vergelijkbare documenten vergelijkbaar is, maar niet altijd identiek. Incidentele variabiliteit in latentie en prestaties is inherent aan elke op microservice gebaseerde, staatloze, asynchrone service die afbeeldingen en grote documenten op schaal verwerkt. Hoewel we voortdurend de hardware- en capaciteits- en schaalmogelijkheden omhoog schalen, zijn er mogelijk nog steeds latentieproblemen tijdens runtime.

Mogelijkheid voor invoegtoepassingen Invoegtoepassing/gratis 2024-02-29-preview
&opsommingsteken [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extractie van lettertype-eigenschap Invoegtoepassing ✔️ ✔️ n.v.t. n.v.t.
Formuleextractie Invoegtoepassing ✔️ ✔️ n.v.t. n.v.t.
Extractie met hoge resolutie Invoegtoepassing ✔️ ✔️ n.v.t. n.v.t.
Streepjescode-extractie Gratis ✔️ ✔️ n.v.t. n.v.t.
Taaldetectie Gratis ✔️ ✔️ n.v.t. n.v.t.
Sleutel-waardeparen Gratis ✔️ n.v.t. n.v.t. n.v.t.
Queryvelden Invoegtoepassing* ✔️ n.v.t. n.v.t. n.v.t.
Doorzoekbare PDF Invoegtoepassing* ✔️ n.v.t. n.v.t. n.v.t.

Modelanalysefuncties

Model-id Inhoudsextractie Queryvelden Leden Alinearollen Selectiemarkeringen Tabellen Sleutel-waardeparen Talen Streepjescodes Documentanalyse Formules* Lettertype voor stijl* Hoge resolutie* Doorzoekbare PDF
vooraf gedefinieerde leesbewerking O O O O O
vooraf gedefinieerde indeling O O O O O
vooraf samengesteld document O O O O O
vooraf samengestelde businessCard
vooraf samengesteld contract O O O O O
prebuilt-healthInsuranceCard.us O O O O O
vooraf samengesteld-idDocument O O O O O
vooraf samengestelde factuur O O O O O O
vooraf samengestelde ontvangstbevestiging O O O O O
prebuilt-marriageCertificate.us O O O O O
vooraf gedefinieerde creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
vooraf samengestelde bankStatement O O O O O
vooraf samengestelde hypotheek.us.1003 O O O O O
vooraf samengestelde hypotheek.us.1004 O O O O O
vooraf samengestelde hypotheek.us.1005 O O O O O
vooraf samengestelde hypotheek.us.1008 O O O O O
vooraf samengestelde hypotheek.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(variaties) O O O O O
prebuilt-tax.us.1040(variaties) O O O O O
{ customModelName } O O O O O

✓ - IngeschakeldE
O - Optioneel
* - Premium-functies kosten

Invoegtoepassing* - Queryvelden zijn anders geprijsd dan de andere invoegtoepassingsfuncties. Zie prijzen voor meer informatie.

Begrenzingsvak en veelhoekcoördinaten

Een begrenzingsvak (polygon in v3.0 en latere versies) is een abstracte rechthoek die tekstelementen in een document omsluit die wordt gebruikt als referentiepunt voor objectdetectie.

  • Het begrenzingsvak geeft de positie aan met behulp van een x- en y-coördinaatvlak dat wordt weergegeven in een matrix van vier numerieke paren. Elk paar vertegenwoordigt een hoek van het vak in de volgende volgorde: linksboven, rechtsboven, rechtsonder, linksonder.

  • Afbeeldingscoördinaten worden weergegeven in pixels. Voor een PDF worden coördinaten weergegeven in inches.

Voor alle modellen, met uitzondering van het visitekaartjesmodel, biedt Document Intelligence nu ondersteuning voor invoegtoepassingsmogelijkheden om geavanceerdere analyses mogelijk te maken. Deze optionele mogelijkheden kunnen worden ingeschakeld en uitgeschakeld, afhankelijk van het scenario van de documentextractie. Er zijn zeven mogelijkheden voor invoegtoepassingen beschikbaar voor de 2023-07-31 (GA) en latere API-versie:

Taalondersteuning

De universele modellen op basis van deep learning in Document Intelligence ondersteunen veel talen waarmee meertalige tekst uit uw afbeeldingen en documenten kan worden geëxtraheerd, inclusief tekstregels met gemengde talen. Taalondersteuning verschilt per functionaliteit van de Document Intelligence-service. Zie de volgende artikelen voor een volledige lijst:

Regionale beschikbaarheid

Document intelligence is algemeen beschikbaar in veel van de meer dan 60 wereldwijde Infrastructuurregio's van Azure.

Zie onze azure-geografische gebiedenpagina voor meer informatie om u en uw klanten te helpen bij het kiezen van de regio die het meest geschikt is voor u en uw klanten.

Modelgegevens

In deze sectie wordt de uitvoer beschreven die u van elk model kunt verwachten. U kunt de uitvoer van de meeste modellen uitbreiden met invoegtoepassingsfuncties.

OCR lezen

Met de Read-API worden regels, woorden, hun locaties, gedetecteerde talen en handgeschreven stijl geanalyseerd en geëxtraheerd, indien gedetecteerd.

Voorbeelddocument dat is verwerkt met behulp van Document Intelligence Studio:

Schermopname van schermopname van een voorbeelddocument dat is verwerkt met Document Intelligence Studio Read

Indelingsanalyse

Het model indelingsanalyse analyseert en extraheert tekst, tabellen, selectiemarkeringen en andere structuurelementen, zoals titels, sectiekoppen, paginakoppen, paginavoetteksten en meer.

Voorbeelddocument dat is verwerkt met behulp van Document Intelligence Studio:

Schermopname van de voorbeeldpagina van een krant die is verwerkt met Document Intelligence Studio.

Zorgverzekeringskaart

Het model van de gezondheidsverzekeringskaart combineert krachtige OCR-mogelijkheden (Optical Character Recognition) met deep learning-modellen om belangrijke informatie uit amerikaanse gezondheidsverzekeringskaarten te analyseren en te extraheren.

Voorbeeld van een amerikaanse gezondheidsverzekeringskaart die is verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeld van een analyse van een amerikaanse gezondheidsverzekeringskaart in Document Intelligence Studio.

Amerikaanse belastingdocumenten

De Amerikaanse belastingdocumentmodellen analyseren en extraheren belangrijke velden en regelitems uit een selecte groep belastingdocumenten. De API ondersteunt de analyse van Amerikaanse belastingdocumenten in de Engelse taal van verschillende indelingen en kwaliteit, waaronder door de telefoon vastgelegde afbeeldingen, gescande documenten en digitale PDF-bestanden. De volgende modellen worden momenteel ondersteund:

Modelleren Beschrijving Model-id
Amerikaanse belasting W-2 Belastingplichtige compensatiegegevens extraheren. prebuilt-tax.us.w2
Amerikaanse belasting 1040 Extraheer hypotheekrentegegevens. prebuilt-tax.us.1040(variaties)
Amerikaanse belasting 1098 Extraheer hypotheekrentegegevens. prebuilt-tax.us.1098(variaties)
Amerikaanse belasting 1099 Extraheer inkomsten ontvangen uit andere bronnen dan werkgever. prebuilt-tax.us.1099(variaties)

Voorbeeld van een W-2-document dat is verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeld W-2.

Amerikaanse hypotheekdocumenten

In de Amerikaanse hypotheekdocumentmodellen worden belangrijke velden geanalyseerd en geëxtraheerd, waaronder gegevens van de kredietnemer, lening en eigenschap uit een selecte groep hypotheekdocumenten. De API ondersteunt de analyse van Amerikaanse hypotheekdocumenten in de Engelse taal van verschillende indelingen en kwaliteit, waaronder door de telefoon vastgelegde afbeeldingen, gescande documenten en digitale PDF-bestanden. De volgende modellen worden momenteel ondersteund:

Modelleren Beschrijving Model-id
1003 Gebruiksrechtovereenkomst (EULA) Extraheer lening, kredietnemer, eigenschapsgegevens. vooraf samengestelde hypotheek.us.1003
1008 Samenvattingsdocument Extraheren van kredietnemer, verkoper, onroerend goed, hypotheek en onderschrijfgegevens. vooraf samengestelde hypotheek.us.1008
Openbaarmaking sluiten Details van sluiten, transactiekosten en lening extraheren. vooraf samengestelde hypotheek.us.closingDisclosure
Huwelijksakte Gegevens over huwelijk extraheren voor gemeenschappelijke aanvragers van leningen. prebuilt-marriageCertificate
Amerikaanse belasting W-2 Extraheer belastingcompensatiegegevens voor inkomstenverificatie. prebuilt-tax.us.w2

Voorbeeld van openbaarmakingsdocument sluiten dat is verwerkt met Behulp van Document Intelligence Studio:

Schermopname van een voorbeeld van het sluiten van de openbaarmaking.

Contract

Het contractmodel analyseert en extraheert belangrijke velden en regelitems uit contractuele overeenkomsten, waaronder partijen, jurisdicties, contract-id en titel. Het model ondersteunt momenteel engelse contractdocumenten.

Voorbeeldcontract verwerkt met Document Intelligence Studio:

Schermopname van contractmodelextractie met Document Intelligence Studio.

Factuur

Het factuurmodel automatiseert de verwerking van facturen om de klantnaam, het factuuradres, de einddatum en het verschuldigde bedrag, regelitems en andere sleutelgegevens te extraheren. Op dit moment ondersteunt het model facturen Engels, Spaans, Duits, Frans, Italiaans, Portugees en Nederlands.

Voorbeeldfactuur verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeldfactuur.

Ontvangstbewijs

Gebruik het ontvangstbewijsmodel om verkoopbevestigingen te scannen op verkoopbewijzen voor verkoopnaam, datums, regelitems, hoeveelheden en totalen van afgedrukte en handgeschreven ontvangstbewijzen. De versie v3.0 ondersteunt ook verwerking van hotelbevestigingen met één pagina.

Voorbeeldbevestiging verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeldbevestiging.

Identiteitsdocument (id)

Gebruik het identiteitsdocumentmodel (ID) voor het verwerken van amerikaanse rijbewijs's (alle 50 staten en district van Columbia) en biografische pagina's van internationale paspoorten (met uitzondering van visum en andere reisdocumenten) om belangrijke velden te extraheren.

Voorbeeld van een U.S. Driver's License verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeldidentificatiekaart.

Huwelijksakte

Gebruik het huwelijkscertificaatmodel om Amerikaanse huwelijkscertificaten te verwerken om belangrijke velden te extraheren, waaronder de individuen, datum en locatie.

Voorbeeld van een Amerikaans huwelijkscertificaat dat is verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeld van een huwelijkscertificaat.

Creditcard

Gebruik het creditcardmodel om creditcards en betaalkaarten te verwerken om sleutelvelden te extraheren.

Voorbeeld van creditcard verwerkt met Document Intelligence Studio:

Schermopname van een voorbeeld van een creditcard.

Aangepaste modellen

Aangepaste modellen kunnen breed worden geclassificeerd in twee typen. Aangepaste classificatiemodellen die ondersteuning bieden voor classificatie van een 'documenttype' en aangepaste extractiemodellen waarmee een gedefinieerd schema uit een specifiek documenttype kan worden geëxtraheerd.

Diagram van typen aangepaste modellen en bijbehorende modelbuildmodi.

Aangepaste documentmodellen analyseren en extraheren gegevens uit formulieren en documenten die specifiek zijn voor uw bedrijf. Ze herkennen formuliervelden binnen uw afzonderlijke inhoud en extraheren sleutel-waardeparen en tabelgegevens. U hebt slechts één voorbeeld van het formuliertype nodig om aan de slag te gaan.

Versie v3.0 en hoger aangepaste modellen ondersteunen handtekeningdetectie in aangepaste sjabloon (formulier) en tabellen op meerdere pagina's in zowel sjabloon- als neurale modellen. Handtekeningdetectie zoekt naar de aanwezigheid van een handtekening, niet de identiteit van de persoon die het document ondertekent. Als het model niet-ondertekend retourneert voor handtekeningdetectie, heeft het model geen handtekening gevonden in het gedefinieerde veld.

Voorbeeld van een aangepaste sjabloon die is verwerkt met Document Intelligence Studio:

Schermopname van het documentinformatieprogramma voor het analyseren van een aangepast formuliervenster.

Aangepaste extractie

Aangepast extractiemodel kan een van de twee typen zijn, een aangepaste sjabloon of een aangepast neuraal model. Als u een aangepast extractiemodel wilt maken, labelt u een gegevensset met documenten met de waarden die u wilt ophalen en traint u het model op de gelabelde gegevensset. U hebt slechts vijf voorbeelden van hetzelfde formulier of documenttype nodig om aan de slag te gaan.

Voorbeeld van aangepaste extractie verwerkt met Document Intelligence Studio:

Schermopname van analyse van aangepaste extractiemodellen in Document Intelligence Studio.

Aangepaste classificatie

Met het aangepaste classificatiemodel kunt u het documenttype identificeren voordat u het extractiemodel aanroept. Het classificatiemodel is beschikbaar vanaf de 2023-07-31 (GA) API. Voor het trainen van een aangepast classificatiemodel zijn ten minste twee afzonderlijke klassen en minimaal vijf voorbeelden per klasse vereist.

Samengestelde modellen

Er wordt een samengesteld model gemaakt door een verzameling aangepaste modellen te maken en deze toe te wijzen aan één model dat is gebouwd op basis van uw formuliertypen. U kunt meerdere aangepaste modellen toewijzen aan een samengesteld model dat wordt aangeroepen met één model-id. U kunt maximaal 200 getrainde aangepaste modellen toewijzen aan één samengesteld model.

Dialoogvenster Samengesteld model in Document Intelligence Studio:

Schermopname van het dialoogvenster Aangepast model opstellen van Document Intelligence Studio.

Vereisten voor invoer

  • Ondersteunde bestandsindelingen:

    Modelleren PDF Afbeelding:
    JPEG/JPG, PNG, BMP, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Read
    Indeling ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Algemeen document
    Vooraf gebouwd
    Aangepaste extractie
    Aangepaste classificatie ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.

  • Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).

  • De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB voor gratis (F0).

  • De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.

  • Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.

  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met punttekst 8 op 150 punten per inch (DPI).

  • Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.

    • Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1 GB voor het neurale model.

    • Voor het trainen van aangepast classificatiemodel is 1 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's. Voor 2024-07-31-preview en hoger is 2 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's.

Notitie

Het hulpprogramma Voorbeeldlabeling biedt geen ondersteuning voor de BMP-bestandsindeling. Dit is een beperking van het hulpprogramma niet van de Document Intelligence-service.

Versiemigratie

Meer informatie over het gebruik van Document Intelligence v3.0 in uw toepassingen door onze Document Intelligence v3.1-migratiehandleiding te volgen

Model Beschrijving
Documentanalyse
Indeling Tekst- en indelingsgegevens extraheren uit documenten.
Vooraf samengesteld
Factuur Belangrijke informatie extraheren uit Engelse en Spaanse facturen.
Kwitantie Belangrijke informatie extraheren uit Engelse ontvangstbewijzen.
Id-document Haal belangrijke informatie op uit amerikaanse rijbewijs's en internationale paspoorten.
Visitekaartje Belangrijke informatie extraheren uit Engelse visitekaartjes.
Aangepast
Aangepast Gegevens extraheren uit formulieren en documenten die specifiek zijn voor uw bedrijf. Aangepaste modellen worden getraind voor uw afzonderlijke gegevens en gebruiksvoorbeelden.
Kalm Stel een verzameling aangepaste modellen samen en wijs ze toe aan één model dat is gebouwd op basis van uw formuliertypen.

Indeling

De Layout-API analyseert en extraheert tekst, tabellen en kopteksten, selectiemarkeringen en structuurinformatie uit documenten.

Voorbeelddocument dat is verwerkt met behulp van het hulpprogramma Voorbeeldlabels:

Schermopname van 'layout'-analyse met behulp van het hulpprogramma Voorbeeldlabeling.

Factuur

Het factuurmodel analyseert en extraheert belangrijke informatie uit verkoopfacturen. De API analyseert facturen in verschillende indelingen en extraheert belangrijke informatie, zoals klantnaam, factuuradres, vervaldatum en verschuldigd bedrag.

Voorbeeldfactuur verwerkt met behulp van het voorbeeldhulpprogramma voor labelen:

Schermopname van een voorbeeldfactuuranalyse met behulp van het hulpprogramma Voorbeeldlabeling.

Ontvangstbewijs

  • Het ontvangstbewijsmodel analyseert en extraheert belangrijke informatie uit afgedrukte en handgeschreven verkoopbevestigingen.

Voorbeeldbevestiging verwerkt met voorbeeldhulpprogramma voor labelen:

Schermopname van een voorbeeldbevestiging.

Id-document

Het id-documentmodel analyseert en extraheert belangrijke informatie uit de volgende documenten:

  • U.S. Driver's Licenses (alle 50 staten en District of Columbia)

  • Biografische pagina's van internationale paspoorten (met uitzondering van visum en andere reisdocumenten). De API analyseert identiteitsdocumenten en extraheert

Voorbeeld van een U.S. Driver's License verwerkt met behulp van het voorbeeldhulpprogramma voor labelen:

Schermopname van een voorbeeldidentificatiekaart.

Visitekaartje

Het visitekaartjesmodel analyseert en extraheert belangrijke informatie uit visitekaartjesafbeeldingen.

Voorbeeld van visitekaartje dat is verwerkt met behulp van het voorbeeldhulpprogramma Voor labelen:

Schermopname van een voorbeeld van een visitekaartje.

Aanpassen

  • Aangepaste modellen analyseren en extraheren gegevens uit formulieren en documenten die specifiek zijn voor uw bedrijf. De API is een machine learning-programma dat is getraind om formuliervelden binnen uw afzonderlijke inhoud te herkennen en sleutel-waardeparen en tabelgegevens te extraheren. U hebt slechts vijf voorbeelden van hetzelfde formuliertype nodig om aan de slag te gaan en uw aangepaste model kan worden getraind met of zonder gelabelde gegevenssets.

Voorbeeld van aangepaste modelverwerking met behulp van het hulpprogramma Voorbeeldlabeling:

Schermopname van het documentinformatieprogramma voor het analyseren van een aangepast formuliervenster.

Samengesteld aangepast model

Er wordt een samengesteld model gemaakt door een verzameling aangepaste modellen te maken en deze toe te wijzen aan één model dat is gebouwd op basis van uw formuliertypen. U kunt meerdere aangepaste modellen toewijzen aan een samengesteld model dat wordt aangeroepen met één model-id. U kunt maximaal 100 getrainde aangepaste modellen toewijzen aan één samengesteld model.

Dialoogvenster Samengesteld model met behulp van het hulpprogramma Voorbeeld van labelen:

Schermopname van het dialoogvenster Aangepast model opstellen van Document Intelligence Studio.

Gegevensextractie modelleren

Model Tekstextractie Taaldetectie Selectiemarkeringen Tabellen Leden Alinearollen Sleutel-waardeparen Velden
Indeling
Factuur
Kwitantie
Id-document
Visitekaartje
Aangepast formulier

Vereisten voor invoer

  • Ondersteunde bestandsindelingen:

    Modelleren PDF Afbeelding:
    JPEG/JPG, PNG, BMP, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Read
    Indeling ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Algemeen document
    Vooraf gebouwd
    Aangepaste extractie
    Aangepaste classificatie ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.

  • Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).

  • De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB voor gratis (F0).

  • De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.

  • Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.

  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met punttekst 8 op 150 punten per inch (DPI).

  • Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.

    • Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1 GB voor het neurale model.

    • Voor het trainen van aangepast classificatiemodel is 1 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's. Voor 2024-07-31-preview en hoger is 2 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's.

Notitie

Het hulpprogramma Voorbeeldlabeling biedt geen ondersteuning voor de BMP-bestandsindeling. Dit is een beperking van het hulpprogramma niet van de Document Intelligence-service.

Versiemigratie

U kunt leren hoe u Document Intelligence v3.0 in uw toepassingen kunt gebruiken door onze Document Intelligence v3.1-migratiehandleiding te volgen

Volgende stappen

  • Probeer uw eigen formulieren en documenten te verwerken met Document Intelligence Studio.

  • Voltooi een quickstart voor Document Intelligence en ga aan de slag met het maken van een app voor documentverwerking in de ontwikkeltaal van uw keuze.

  • Probeer uw eigen formulieren en documenten te verwerken met het hulpprogramma Document Intelligence Sample Labeling.

  • Voltooi een quickstart voor Document Intelligence en ga aan de slag met het maken van een app voor documentverwerking in de ontwikkeltaal van uw keuze.