Aangepast sjabloonmodel voor Document Intelligence

Belangrijk

  • Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling.
  • Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
  • De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-02-29-preview.
  • Openbare preview-versie 2024-02-29-preview is momenteel alleen beschikbaar in de volgende Azure-regio's:
  • VS - oost
  • VS - west 2
  • Europa -west

Deze inhoud is van toepassing op:Vinkjev4.0 (preview) | Vorige versies:blauw-vinkjev3.1 (GA)blauw-vinkjev3.0 (GA)blauw-vinkjev2.1 (GA)

Deze inhoud is van toepassing op:Vinkjev3.1 (GA) | Nieuwste versie:paars vinkjev4.0 (preview) | Vorige versies:blauw-vinkjev3.0blauw-vinkjev2.1

Deze inhoud is van toepassing op:Vinkjev3.0 (GA) | Nieuwste versies:paars vinkjev4.0 (preview)paars vinkjev3.1 | Vorige versie:blauw-vinkjev2.1

Deze inhoud is van toepassing op:Vinkjev2.1 | Nieuwste versie:blauw-vinkjev4.0 (preview)

Aangepaste sjabloon (voorheen aangepast formulier) is een eenvoudig te trainen documentmodel waarmee gelabelde sleutel-waardeparen, selectiemarkeringen, tabellen, regio's en handtekeningen uit documenten nauwkeurig worden geëxtraheerd. Sjabloonmodellen gebruiken indelingshints om waarden uit documenten te extraheren en zijn geschikt voor het extraheren van velden uit zeer gestructureerde documenten met gedefinieerde visuele sjablonen.

Aangepaste sjabloonmodellen delen dezelfde labelindeling en -strategie als aangepaste neurale modellen, met ondersteuning voor meer veldtypen en talen.

Modelmogelijkheden

Aangepaste sjabloonmodellen ondersteunen sleutel-waardeparen, selectiemarkeringen, tabellen, handtekeningvelden en geselecteerde regio's.

Formuliervelden Selectiemarkeringen Tabellaire velden (tabellen) Handtekening Geselecteerde regio's
Ondersteund Ondersteund Ondersteund Ondersteund Ondersteund

Tabellaire velden

Met de release van API-versies 2022-06-30-preview en hoger worden aangepaste sjabloonmodellen ondersteuning toegevoegd voor velden in tabelvorm op meerdere pagina's (tabellen):

  • Als u een tabel met meerdere pagina's wilt labelen, moet u elke rij van de tabel labelen op de verschillende pagina's in één tabel.
  • Als best practice moet u ervoor zorgen dat uw gegevensset enkele voorbeelden van de verwachte variaties bevat. Neem bijvoorbeeld voorbeelden op waarbij de hele tabel zich op één pagina bevindt en waar tabellen twee of meer pagina's omvatten als u verwacht dat deze variaties in documenten worden weergegeven.

Tabellaire velden zijn ook handig bij het extraheren van herhalende informatie in een document dat niet wordt herkend als een tabel. Een herhalende sectie met werkervaringen in een cv kan bijvoorbeeld worden gelabeld en geëxtraheerd als een tabellair veld.

Omgaan met variaties

Sjabloonmodellen zijn afhankelijk van een gedefinieerde visuele sjabloon, wijzigingen in de sjabloon resulteert in lagere nauwkeurigheid. In deze gevallen splitst u uw trainingsgegevensset op met ten minste vijf voorbeelden van elke sjabloon en traint u een model voor elk van de variaties. Vervolgens kunt u de modellen samenstellen in één eindpunt. Voor subtiele variaties, zoals digitale PDF-documenten en afbeeldingen, kunt u het beste ten minste vijf voorbeelden van elk type in dezelfde trainingsgegevensset opnemen.

Vereisten voor invoer

  • Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.

  • Ondersteunde bestandsindelingen:

    Model PDF Afbeelding:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) en HTML
    Read
    Indeling ✔ (2024-02-29-preview, 2023-10-31-preview of hoger)
    Algemeen document
    Vooraf gebouwd
    Aangepast telefoonnummer

    ✱ Microsoft Office-bestanden worden momenteel niet ondersteund voor andere modellen of versies.

  • Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een abonnement op de gratis laag worden alleen de eerste twee pagina's verwerkt).

  • De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB gratis (F0).

  • De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.

  • Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.

  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met ongeveer 8-punttekst op 150 punten per inch (DPI).

  • Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.

  • Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1G-MB voor het neurale model.

  • Voor het trainen van aangepast classificatiemodel is 1GB de totale grootte van trainingsgegevens maximaal 10.000 pagina's.

Een model trainen

Aangepaste sjabloonmodellen zijn algemeen beschikbaar met de v4.0-API. Als u begint met een nieuw project of een bestaande gelabelde gegevensset hebt, gebruikt u de v3.1- of v3.0-API met Document Intelligence Studio om een aangepast sjabloonmodel te trainen.

Model REST-API SDK Modellen labelen en testen
Sjabloon Aangepast v3.1 API Document Intelligence SDK Document Intelligence Studio

Met de v3.0- en hoger-API's ondersteunt de buildbewerking voor het trainen van een model een nieuwe buildMode eigenschap, om een aangepast sjabloonmodel te trainen, de buildMode waarde in te stellen op template.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Aangepaste sjabloonmodellen zijn algemeen beschikbaar met de v3.1-API. Als u begint met een nieuw project of een bestaande gelabelde gegevensset hebt, gebruikt u de v3.1- of v3.0-API met Document Intelligence Studio om een aangepast sjabloonmodel te trainen.

Model REST-API SDK Modellen labelen en testen
Sjabloon Aangepast v3.1 API Document Intelligence SDK Document Intelligence Studio

Met de v3.0- en hoger-API's ondersteunt de buildbewerking voor het trainen van een model een nieuwe buildMode eigenschap, om een aangepast sjabloonmodel te trainen, de buildMode waarde in te stellen op template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Ondersteunde talen en landinstellingen

Zie onze pagina Taalondersteuning: aangepaste modellen voor een volledige lijst met ondersteunde talen.

Aangepaste (sjabloon)modellen zijn algemeen beschikbaar met de v2.1-API.

Model REST-API SDK Modellen labelen en testen
Aangepast model (sjabloon) Document Intelligence 2.1 Document Intelligence SDK Hulpprogramma voor labelen van Document Intelligence-voorbeeld

Volgende stappen

Meer informatie over het maken en opstellen van aangepaste modellen:

Aangepaste modellensamenstellen

Aangepaste modellensamenstellen