Document Intelligence-factuurmodel
Belangrijk
- Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling. Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
- De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-07-31-preview.
- Openbare preview-versie 2024-07-31-preview is momenteel alleen beschikbaar in de volgende Azure-regio's. Houd er rekening mee dat het aangepaste model voor generatieve (extractie van documentvelden) in AI Studio alleen beschikbaar is in de regio VS - noord-centraal:
- VS - oost
- VS - west 2
- Europa -west
- VS - noord-centraal
Deze inhoud is van toepassing op: v4.0 (preview) | Vorige versies: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Deze inhoud is van toepassing op: v3.1 (GA) | Nieuwste versie: v4.0 (preview) | Vorige versies: v3.0 v2.1
Deze inhoud is van toepassing op: v3.0 (GA) | Nieuwste versies: v4.0 (preview) v3.1 | Vorige versie: v2.1
Deze inhoud is van toepassing op: v2.1 | Nieuwste versie: v4.0 (preview)
Het Document Intelligence-factuurmodel maakt gebruik van krachtige OCR-mogelijkheden (Optical Character Recognition) om belangrijke velden en regelitems te analyseren en te extraheren uit verkoopfacturen, nutsfacturen en inkooporders. Facturen kunnen verschillende indelingen en kwaliteit hebben, waaronder door de telefoon vastgelegde afbeeldingen, gescande documenten en digitale PDF-bestanden. De API analyseert factuurtekst; extraheert belangrijke informatie, zoals klantnaam, factuuradres, vervaldatum en verschuldigd bedrag; en retourneert een gestructureerde JSON-gegevensweergave. Het model ondersteunt momenteel facturen in 27 talen.
Ondersteunde documenttypen:
- Facturen
- Hulpprogrammafactuur
- Verkooporders
- Inkooporders
Geautomatiseerde factuurverwerking
Geautomatiseerde factuurverwerking is het proces van het extraheren van sleutelvelden accounts payable
uit factureringsrekeningdocumenten. Geëxtraheerde gegevens omvatten regelitems van facturen die zijn geïntegreerd met uw crediteurenwerkstromen (AP) voor beoordelingen en betalingen. In het verleden wordt het crediteurenproces handmatig uitgevoerd en dus zeer tijdrovend. Nauwkeurige extractie van sleutelgegevens uit facturen is doorgaans de eerste en een van de meest kritieke stappen in het proces voor factuurautomatisering.
Voorbeeldfactuur verwerkt met Document Intelligence Studio:
Voorbeeldfactuur verwerkt met het hulpprogramma Document Intelligence-voorbeeldlabels:
Ontwikkelingsopties
Document Intelligence v4.0 (2024-07-31-preview) ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:
Functie | Resources | Model-id |
---|---|---|
Factuurmodel | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
vooraf samengestelde factuur |
Document Intelligence v3.1 ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:
Functie | Resources | Model-id |
---|---|---|
Factuurmodel | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
vooraf samengestelde factuur |
Document Intelligence v3.0 ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:
Functie | Resources | Model-id |
---|---|---|
Factuurmodel | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
vooraf samengestelde factuur |
Document Intelligence v2.1 ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:
Functie | Resources |
---|---|
Factuurmodel | • Hulpprogramma voor documentinformatielabels• REST API • Sdk voor clientbibliotheek• Document Intelligence Docker-container |
Vereisten voor invoer
Ondersteunde bestandsindelingen:
Modelleren PDF Afbeelding: JPEG/JPG
,PNG
,BMP
, ,TIFF
HEIF
Microsoft Office:
Word (), Excel (XLSX
DOCX
), PowerPoint (PPTX
), HTMLRead ✔ ✔ ✔ Indeling ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Algemeen document ✔ ✔ Vooraf gebouwd ✔ ✔ Aangepaste extractie ✔ ✔ Aangepaste classificatie ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.
Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).
De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en
4
MB voor gratis (F0).De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.
Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.
De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met punttekst
8
op 150 punten per inch (DPI).Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.
Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en
1
GB voor het neurale model.Voor het trainen van aangepast classificatiemodel is
1
de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's. Voor 2024-07-31-preview en hoger is2
de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's.
- Ondersteunde bestandsindelingen: JPEG, PNG, PDF en TIFF.
- Ondersteunde PDF en TIFF, maximaal 2000 pagina's worden verwerkt. Voor abonnees van de gratis laag worden alleen de eerste twee pagina's verwerkt.
- Ondersteunde bestandsgrootte moet kleiner zijn dan 50 MB en afmetingen ten minste 50 x 50 pixels en maximaal 10.000 x 10.000 pixels.
Gegevensextractie van factuurmodel
Bekijk hoe gegevens, waaronder klantgegevens, details van leveranciers en regelitems, worden geëxtraheerd uit facturen. U hebt de volgende resources nodig:
Een Azure-abonnement: u kunt er gratis een maken.
Een Document Intelligence-exemplaar in Azure Portal. U kunt de gratis prijscategorie (
F0
) gebruiken om de service te proberen. Nadat uw resource is geïmplementeerd, selecteert u Ga naar de resource om uw sleutel en eindpunt op te halen.
Selecteer Facturen op de startpagina van Document Intelligence Studio.
U kunt de voorbeeldfactuur analyseren of uw eigen bestanden uploaden.
Selecteer de knop Analyse uitvoeren en configureer indien nodig de opties Analyseren:
Document Intelligence-voorbeeldhulpprogramma voor labelen
Navigeer naar het voorbeeldprogramma documentinformatie.
Selecteer op de startpagina van het voorbeeldhulpprogramma het vooraf samengestelde model gebruiken om de gegevenstegel op te halen.
Selecteer het formuliertype dat u wilt analyseren in de vervolgkeuzelijst.
Kies een URL voor het bestand dat u wilt analyseren uit de onderstaande opties:
Selecteer in het veld Bron de URL in de vervolgkeuzelijst, plak de geselecteerde URL en selecteer de knop Ophalen.
Plak in het veld Eindpunt van de Document Intelligence-service het eindpunt dat u hebt verkregen met uw Document Intelligence-abonnement.
Plak in het sleutelveld de sleutel die u hebt verkregen uit uw Document Intelligence-resource.
Selecteer Analyse uitvoeren. Met het hulpprogramma Document Intelligence-voorbeeldlabels wordt de vooraf samengestelde API analyseren aangeroepen en het document geanalyseerd.
Bekijk de resultaten: bekijk de sleutel-waardeparen die zijn geëxtraheerd, regelitems, gemarkeerde tekst geëxtraheerd en tabellen gedetecteerd.
Notitie
Het hulpprogramma Voorbeeldlabeling biedt geen ondersteuning voor de BMP-bestandsindeling. Dit is een beperking van het hulpprogramma niet van de Document Intelligence-service.
Ondersteunde talen en landinstellingen
Zie onze pagina voor vooraf samengestelde modeltaalondersteuning voor een volledige lijst met ondersteunde talen.
Veldextractie
Raadpleeg de schemapagina van het factuurmodel in onze GitHub-voorbeeldopslagplaats voor ondersteunde velden voor documentextractie.
De factuursleutel-waardeparen en regelitems die zijn geëxtraheerd, bevinden zich in de
documentResults
sectie van de JSON-uitvoer.
Sleutel-waardeparen
De vooraf samengestelde factuur 2022-06-30 en latere versies ondersteunen het optionele rendement van sleutel-waardeparen. Standaard is het retourneren van sleutel-waardeparen uitgeschakeld. Sleutel-waardeparen zijn specifieke spanten binnen de factuur die een label of sleutel en de bijbehorende reactie of waarde identificeren. In een factuur kunnen deze paren het label zijn en de waarde die de gebruiker heeft ingevoerd voor dat veld of telefoonnummer. Het AI-model is getraind om identificeerbare sleutels en waarden te extraheren op basis van een groot aantal documenttypen, indelingen en structuren.
Sleutels kunnen ook geïsoleerd bestaan wanneer het model detecteert dat er een sleutel bestaat, zonder gekoppelde waarde of bij het verwerken van optionele velden. In sommige gevallen kan bijvoorbeeld een veld met een middelste naam leeg blijven in een formulier. Sleutel-waardeparen bestaan altijd uit tekst in het document. Voor documenten waarbij dezelfde waarde op verschillende manieren wordt beschreven, bijvoorbeeld klant/gebruiker, is de bijbehorende sleutel klant of gebruiker (op basis van context).
Uitgepakte velden
De factuurservice extraheert de tekst, tabellen en 26 factuurvelden. Hieronder volgen de velden die zijn geëxtraheerd uit een factuur in het JSON-uitvoerantwoord (in de volgende uitvoer wordt deze voorbeeldfactuur gebruikt).
Name | Type | Beschrijving | Tekst | Waarde (gestandaardiseerde uitvoer) |
---|---|---|---|---|
CustomerName | tekenreeks | Klant die wordt gefactureerd | Microsoft Corp | |
CustomerId | tekenreeks | Referentie-id voor de klant | CID-12345 | |
PurchaseOrder | tekenreeks | Een referentienummer voor inkooporders | PO-3333 | |
InvoiceId | tekenreeks | Id voor deze specifieke factuur (vaak 'Factuurnummer') | INV-100 | |
InvoiceDate | datum | Datum waarop de factuur is uitgegeven | 11/15/2019 | 2019-11-15 |
DueDate | datum | De datum waarop de betaling voor deze factuur moet worden voldaan | 15-12-2019 | 2019-12-15 |
Leveranciersnaam | tekenreeks | Leverancier die de factuur heeft gemaakt | CONTOSO | |
VendorAddress | tekenreeks | Postadres voor de leverancier | 123 456th St New York, NY, 10001 | |
VendorAddressRecipient | tekenreeks | Naam die is gekoppeld aan het VendorAddress | Contoso-hoofdkantoor | |
CustomerAddress | tekenreeks | Postadres voor de klant | 123 Other Street, Redmond, Washington, 98052 | |
CustomerAddressRecipient | tekenreeks | Naam die is gekoppeld aan het CustomerAddress | Microsoft Corp | |
BillingAddress | tekenreeks | Expliciet factureringsadres voor de klant | 123 Bill Street, Redmond, Washington, 98052 | |
BillingAddressRecipient | tekenreeks | Naam die is gekoppeld aan het BillingAddress | Microsoft Services | |
ShippingAddress | tekenreeks | Expliciet verzendadres voor de klant | 123 Ship Street, Redmond, Washington, 98052 | |
ShippingAddressRecipient | tekenreeks | Naam die is gekoppeld aan het ShippingAddress | Microsoft Delivery | |
Subtotaal | Nummer | Subtotaalveld geïdentificeerd op deze factuur | $ 100,00 | 100 |
TotalTax | Nummer | Totaal belastingveld geïdentificeerd op deze factuur | € 10,00 | 10 |
InvoiceTotal | Nummer | Totaal aantal nieuwe kosten dat is gekoppeld aan deze factuur | $ 110,00 | 110 |
AmountDue | Nummer | Totaal bedrag verschuldigd aan de leverancier | $ 610,00 | 610 |
ServiceAddress | tekenreeks | Expliciet serviceadres of eigenschapsadres voor de klant | 123 Service Street, Redmond, Washington, 98052 | |
ServiceAddressRecipient | tekenreeks | Naam die is gekoppeld aan het ServiceAddress | Microsoft Services | |
Overboekingsadres | tekenreeks | Expliciete overboeking of betalingsadres voor de klant | 123 Remit St New York, NY, 10001 | |
OverboekingAddressRecipient | tekenreeks | Naam gekoppeld aan het RemittanceAddress | Contoso-facturering | |
ServiceStartDate | datum | Eerste datum voor de serviceperiode (bijvoorbeeld een serviceperiode voor de nutsrekening) | 10/14/2019 | 2019-10-14 |
ServiceEndDate | datum | Einddatum voor de serviceperiode (bijvoorbeeld een serviceperiode voor nutsbedrijven) | 11/14/2019 | 2019-11-14 |
PreviousUnpaidBalance | Nummer | Expliciet eerder onbetaald saldo | $ 500,00 | 500 |
Hieronder ziet u de regelitems die zijn geëxtraheerd uit een factuur in het JSON-uitvoerantwoord en deze voorbeeldfactuur wordt gebruikt:
Name | Type | Description | Tekst (regelitem 1) | Waarde (gestandaardiseerde uitvoer) |
---|---|---|---|---|
Artikelen | tekenreeks | Volledige tekenreekstekstregel van het regelitem | 3/4/2021 A123 Consulting Services 2 uur $ 30,00 10% $ 60,00 | |
Aantal | Nummer | Het bedrag van het regelitem | $ 60,00 | 100 |
Beschrijving | tekenreeks | De tekstbeschrijving voor het factuurregelitem | Adviesservice | Adviesservice |
Hoeveelheid | Nummer | De hoeveelheid voor dit factuurregelitem | 2 | 2 |
UnitPrice | Nummer | De netto- of brutoprijs (afhankelijk van de bruto factuurinstelling van de factuur) van één eenheid van dit artikel | $ 30,00 | 30 |
ProductCode | tekenreeks | Productcode, productnummer of SKU die is gekoppeld aan het specifieke regelitem | A123 | |
Eenheid | tekenreeks | De eenheid van het lijnitem, bijvoorbeeld kg, lb, enz. | uren | |
Datum | datum | Datum die overeenkomt met elk regelitem. Vaak is het een datum waarop het regelitem is verzonden | 3/4/2021 | 2021-03-04 |
Belasting | Nummer | Belasting die aan elk regelitem is gekoppeld. Mogelijke waarden zijn belastingbedrag, belastingpercentage en belasting-Y/N | 10% |
Hier volgen complexe velden die zijn geëxtraheerd uit een factuur in het JSON-uitvoerantwoord:
TaxDetails
Belastingdetails definiëren specifieke belastingen die worden toegepast op het factuurtotaal.
Name | Type | Description | Tekst (regelitem 1) | Waarde (gestandaardiseerde uitvoer) |
---|---|---|---|---|
Artikelen | tekenreeks | Volledige tekenreekstekstregel van het belastingitem | V.A.T. 15% $ 60,00 | |
Aantal | Nummer | Het belastingbedrag van het belastingitem | 60.00 | 60 |
Prijs | tekenreeks | Het belastingtarief van het belastingartikel | 15% |
PaymentDetails
Vermeld alle gedetecteerde betalingsopties die in het veld zijn gedetecteerd.
Name | Type | Description | Tekst (regelitem 1) | Waarde (gestandaardiseerde uitvoer) |
---|---|---|---|---|
IBAN |
tekenreeks | Intern bankrekeningnummer | GB33BUKB20201555555555 | |
SWIFT |
tekenreeks | SWIFT-code | BUKBGB22 | |
BankAccountNumber | tekenreeks | Bankrekeningnummer, een unieke id voor een bankrekening | 123456 | |
BPayBillerCode | tekenreeks | Australian B-Pay Biller Code | 12345 | |
BPayReference | tekenreeks | Australische B-Pay-referentiecode | 98765432100 |
JSON-uitvoer
De JSON-uitvoer heeft drie delen:
"readResults"
het knooppunt bevat alle herkende tekst- en selectiemarkeringen. Tekst wordt geordend via pagina, vervolgens op regel en vervolgens op afzonderlijke woorden."pageResults"
het knooppunt bevat de tabellen en cellen die zijn geëxtraheerd met hun begrenzingsvakken, betrouwbaarheid en een verwijzing naar de regels en woorden in readResults."documentResults"
het knooppunt bevat de factuurspecifieke waarden en regelitems die door het model zijn gedetecteerd. Hier vindt u alle velden van de factuur, zoals factuur-id, verzenden naar, factureren naar, klant, totaal, regelitems en nog veel meer.
Migratiehandleiding
- Volg onze migratiehandleiding voor Document Intelligence v3.1 voor meer informatie over het gebruik van de versie v3.0 in uw toepassingen en werkstromen.
Volgende stappen
Probeer uw eigen formulieren en documenten te verwerken met Document Intelligence Studio.
Voltooi een quickstart voor Document Intelligence en ga aan de slag met het maken van een app voor documentverwerking in de ontwikkeltaal van uw keuze.
Probeer uw eigen formulieren en documenten te verwerken met het hulpprogramma Document Intelligence Sample Labeling.
Voltooi een quickstart voor Document Intelligence en ga aan de slag met het maken van een app voor documentverwerking in de ontwikkeltaal van uw keuze.