Aangepast sjabloonmodel voor Document Intelligence
Belangrijk
- Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling. Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
- De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-07-31-preview.
- Openbare preview-versie 2024-07-31-preview is momenteel alleen beschikbaar in de volgende Azure-regio's. Houd er rekening mee dat het aangepaste model voor generatieve (extractie van documentvelden) in AI Studio alleen beschikbaar is in de regio VS - noord-centraal:
- VS - oost
- VS - west 2
- Europa -west
- VS - noord-centraal
Deze inhoud is van toepassing op: v4.0 (preview) | Vorige versies: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Deze inhoud is van toepassing op: v3.1 (GA) | Nieuwste versie: v4.0 (preview) | Vorige versies: v3.0 v2.1
Deze inhoud is van toepassing op: v3.0 (GA) | Nieuwste versies: v4.0 (preview) v3.1 | Vorige versie: v2.1
Deze inhoud is van toepassing op: v2.1 | Nieuwste versie: v4.0 (preview)
Aangepaste sjabloon (voorheen aangepast formulier) is een eenvoudig te trainen documentmodel waarmee gelabelde sleutel-waardeparen, selectiemarkeringen, tabellen, regio's en handtekeningen uit documenten nauwkeurig worden geëxtraheerd. Sjabloonmodellen gebruiken indelingshints om waarden uit documenten te extraheren en zijn geschikt voor het extraheren van velden uit zeer gestructureerde documenten met gedefinieerde visuele sjablonen.
Aangepaste sjabloonmodellen delen dezelfde labelindeling en -strategie als aangepaste neurale modellen, met ondersteuning voor meer veldtypen en talen.
Modelmogelijkheden
Aangepaste sjabloonmodellen ondersteunen sleutel-waardeparen, selectiemarkeringen, tabellen, handtekeningvelden en geselecteerde regio's.
Formuliervelden | Selectiemarkeringen | Tabellaire velden (tabellen) | Handtekening | Geselecteerde regio's | Overlappende velden |
---|---|---|---|---|---|
Ondersteund | Ondersteund | Ondersteund | Ondersteund | Ondersteund | Niet ondersteund |
Tabellaire velden
Met de release van API-versies v3.0 en hoger voegen aangepaste sjabloonmodellen ondersteuning toe voor velden in tabelvorm op meerdere pagina's (tabellen):
- Als u een tabel met meerdere pagina's wilt labelen, moet u elke rij van de tabel labelen op de verschillende pagina's in één tabel.
- Als best practice moet u ervoor zorgen dat uw gegevensset enkele voorbeelden van de verwachte variaties bevat. Neem bijvoorbeeld voorbeelden op waarbij de hele tabel zich op één pagina bevindt en waar tabellen twee of meer pagina's omvatten als u verwacht dat deze variaties in documenten worden weergegeven.
Tabellaire velden zijn ook handig bij het extraheren van herhalende informatie in een document dat niet wordt herkend als een tabel. Een herhalende sectie met werkervaringen in een cv kan bijvoorbeeld worden gelabeld en geëxtraheerd als een tabellair veld.
Omgaan met variaties
Sjabloonmodellen zijn afhankelijk van een gedefinieerde visuele sjabloon, wijzigingen in de sjabloon resulteert in lagere nauwkeurigheid. In deze gevallen splitst u uw trainingsgegevensset op met ten minste vijf voorbeelden van elke sjabloon en traint u een model voor elk van de variaties. Vervolgens kunt u de modellen samenstellen in één eindpunt. Voor subtiele variaties, zoals digitale PDF-documenten en afbeeldingen, kunt u het beste ten minste vijf voorbeelden van elk type in dezelfde trainingsgegevensset opnemen.
Vereisten voor invoer
Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.
Ondersteunde bestandsindelingen:
Modelleren PDF Afbeelding:
JPEG/JPG
,PNG
,BMP
,TIFF
HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) en HTMLRead ✔ ✔ ✔ Indeling ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview of hoger) Algemeen document ✔ ✔ Vooraf gebouwd ✔ ✔ Aanpassen ✔ ✔ ✱ Microsoft Office-bestanden worden momenteel niet ondersteund voor andere modellen of versies.
Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).
De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB gratis (F0).
De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.
Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.
De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met ongeveer
8
-punttekst op 150 punten per inch (DPI
).Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.
Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1G-MB voor het neurale model.
Voor het trainen van aangepast classificatiemodel is
1GB
de totale grootte van trainingsgegevens maximaal 10.000 pagina's.
Een model trainen
Aangepaste sjabloonmodellen zijn algemeen beschikbaar vanaf v2.0 API en latere versies. Als u begint met een nieuw project of een bestaande gelabelde gegevensset hebt, gebruikt u de v3.1- of v3.0-API met Document Intelligence Studio om een aangepast sjabloonmodel te trainen.
Modelleren | REST-API | SDK | Modellen labelen en testen |
---|---|---|---|
Sjabloon Aangepast | v3.1 API | Document Intelligence SDK | Document Intelligence Studio |
Met de v3.0- en hoger-API's ondersteunt de buildbewerking voor het trainen van een model een nieuwe buildMode
eigenschap, om een aangepast sjabloonmodel te trainen, de buildMode
waarde in te stellen op template
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Aangepaste sjabloonmodellen zijn algemeen beschikbaar met de v3.1-API. Als u begint met een nieuw project of een bestaande gelabelde gegevensset hebt, gebruikt u de v3.1- of v3.0-API met Document Intelligence Studio om een aangepast sjabloonmodel te trainen.
Modelleren | REST-API | SDK | Modellen labelen en testen |
---|---|---|---|
Sjabloon Aangepast | v3.1 API | Document Intelligence SDK | Document Intelligence Studio |
Met de v3.0- en hoger-API's ondersteunt de buildbewerking voor het trainen van een model een nieuwe buildMode
eigenschap, om een aangepast sjabloonmodel te trainen, de buildMode
waarde in te stellen op template
.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Ondersteunde talen en landinstellingen
Zie onze pagina Taalondersteuning: aangepaste modellen voor een volledige lijst met ondersteunde talen.
Aangepaste (sjabloon)modellen zijn algemeen beschikbaar met de v2.1-API.
Modelleren | REST-API | SDK | Modellen labelen en testen |
---|---|---|---|
Aangepast model (sjabloon) | Document Intelligence 2.1 | Document Intelligence SDK | Hulpprogramma voor labelen van Document Intelligence-voorbeeld |
Volgende stappen
Meer informatie over het maken en opstellen van aangepaste modellen:
Aangepaste modellensamenstellen
Aangepaste modellensamenstellen