Anpassad mallmodell för Dokumentinformation

Viktigt!

  • Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling.
  • Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
  • Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-02-29-preview.
  • Förhandsversion 2024-02-29-preview är för närvarande endast tillgänglig i följande Azure-regioner:
  • USA, östra
  • USA, västra 2
  • Europa, västra

Det här innehållet gäller för:Bockmarkeringv4.0 (förhandsversion) | Tidigare versioner:blå bockmarkeringv3.1 (GA)blå bockmarkeringv3.0 (GA)blå bockmarkeringv2.1 (GA)

Det här innehållet gäller för:Bockmarkeringv3.1 (GA) | Senaste version:lila bockmarkeringv4.0 (förhandsversion) | Tidigare versioner:blå bockmarkeringv3.0blå bockmarkeringv2.1

Det här innehållet gäller för:Bockmarkeringv3.0 (GA) | Senaste versionerna:lila bockmarkeringv4.0 (förhandsversion)lila bockmarkeringv3.1 | Tidigare version:blå bockmarkeringv2.1

Det här innehållet gäller för:Bockmarkeringv2.1 | Senaste version:blå bockmarkeringv4.0 (förhandsversion)

Anpassad mall (tidigare anpassat formulär) är en lätttränad dokumentmodell som korrekt extraherar etiketterade nyckel/värde-par, urvalsmarkeringar, tabeller, regioner och signaturer från dokument. Mallmodeller använder layouttips för att extrahera värden från dokument och är lämpliga för att extrahera fält från mycket strukturerade dokument med definierade visuella mallar.

Anpassade mallmodeller har samma etikettformat och strategi som anpassade neurala modeller, med stöd för fler fälttyper och språk.

Modellfunktioner

Anpassade mallmodeller stöder nyckel/värde-par, markeringsmarkeringar, tabeller, signaturfält och valda regioner.

Formulärfält Markeringsmarkeringar Tabellfält (tabeller) Signatur Valda regioner
Stöds Stöds Stöds Stöds Stöds

Tabellfält

Med lanseringen av API-versionerna 2022-06-30-preview och senare lägger anpassade mallmodeller till stöd för tabellfält mellan sidor (tabeller):

  • Om du vill märka en tabell som sträcker sig över flera sidor etiketterar du varje rad i tabellen på de olika sidorna i en enda tabell.
  • Vi rekommenderar att du ser till att datamängden innehåller några exempel på de förväntade variationerna. Ta till exempel med exempel där hela tabellen finns på en enda sida och där tabeller sträcker sig över två eller flera sidor om du förväntar dig att se dessa variationer i dokument.

Tabellfält är också användbara när du extraherar upprepad information i ett dokument som inte känns igen som en tabell. Till exempel kan ett upprepat avsnitt av arbetsupplevelser i ett CV märkas och extraheras som ett tabellfält.

Hantera variationer

Mallmodeller förlitar sig på en definierad mall för visuellt objekt, ändringar i mallen resulterar i lägre noggrannhet. I dessa fall delar du upp din träningsdatauppsättning så att den innehåller minst fem exempel på varje mall och tränar en modell för var och en av varianterna. Du kan sedan skapa modellerna i en enda slutpunkt. För subtila variationer, till exempel digitala PDF-dokument och bilder, är det bäst att inkludera minst fem exempel av varje typ i samma träningsdatauppsättning.

Indatakrav

  • För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.

  • Filformat som stöds:

    Modell PDF Bild:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) och HTML
    Läsa
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview eller senare)
    Allmänt dokument
    Inbyggda
    Anpassat

    ✱ Microsoft Office-filer stöds för närvarande inte för andra modeller eller versioner.

  • För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en kostnadsfri nivåprenumeration bearbetas endast de två första sidorna).

  • Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).

  • Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.

  • Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.

  • Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär 8-punkttext vid 150 punkter per tum (DPI).

  • För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.

  • För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.

  • För anpassad klassificeringsmodellträning är 1GB den totala storleken på träningsdata med högst 10 000 sidor.

Träna en modell

Anpassade mallmodeller är allmänt tillgängliga med v4.0-API:et. Om du börjar med ett nytt projekt eller har en befintlig etiketterad datauppsättning använder du API:et v3.1 eller v3.0 med Document Intelligence Studio för att träna en anpassad mallmodell.

Modell REST API SDK Etikett- och testmodeller
Anpassad mall v3.1 API SDK för dokumentinformation Document Intelligence Studio

Med api:erna v3.0 och senare stöder byggåtgärden för att träna modellen en ny buildMode egenskap. Om du vill träna en anpassad mallmodell anger du buildMode till template.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Anpassade mallmodeller är allmänt tillgängliga med v3.1-API:et. Om du börjar med ett nytt projekt eller har en befintlig etiketterad datauppsättning använder du API:et v3.1 eller v3.0 med Document Intelligence Studio för att träna en anpassad mallmodell.

Modell REST API SDK Etikett- och testmodeller
Anpassad mall v3.1 API SDK för dokumentinformation Document Intelligence Studio

Med api:erna v3.0 och senare stöder byggåtgärden för att träna modellen en ny buildMode egenskap. Om du vill träna en anpassad mallmodell anger du buildMode till template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Språk och nationella inställningar som stöds

Se sidan Språkstöd – anpassade modeller för en fullständig lista över språk som stöds.

Anpassade modeller (mall) är allmänt tillgängliga med v2.1-API:et.

Modell REST API SDK Etikett- och testmodeller
Anpassad modell (mall) Dokumentinformation 2.1 SDK för dokumentinformation Exempeletikettverktyg för dokumentinformation

Nästa steg

Lär dig hur du skapar och skapar anpassade modeller: