Dela via


Funktioner för dokumentinformationstillägg

Viktigt!

  • Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling. Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
  • Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-07-31-preview.
  • Den offentliga förhandsversionen 2024-07-31-preview är för närvarande endast tillgänglig i följande Azure-regioner. Observera att modellen för anpassad generativ (extrahering av dokumentfält) i AI Studio endast är tillgänglig i regionen USA, norra centrala:
    • USA, östra
    • USA, västra 2
    • Europa, västra
    • USA, norra centrala

Det här innehållet gäller för:Bockmarkering v4.0 (förhandsversion) | Tidigare versioner: blå bockmarkering v3.1 (GA)

Det här innehållet gäller för: Bockmarkering v3.1 (GA) | Senaste version: lila bockmarkering v4.0 (förhandsversion)

Kommentar

Tilläggsfunktioner är tillgängliga i alla modeller förutom visitkortsmodellen.

Funktioner

Dokumentinformation stöder mer avancerade och modulära analysfunktioner. Använd tilläggsfunktionerna för att utöka resultatet till att omfatta fler funktioner som extraherats från dina dokument. Vissa tilläggsfunktioner medför en extra kostnad. Dessa valfria funktioner kan aktiveras och inaktiveras beroende på scenariot med extrahering av dokument. Om du vill aktivera en funktion lägger du till det associerade funktionsnamnet i frågesträngsegenskapen features . Du kan aktivera fler än en tilläggsfunktion på en begäran genom att tillhandahålla en kommaavgränsad lista över funktioner. Följande tilläggsfunktioner är tillgängliga för 2023-07-31 (GA) och senare versioner.

Från och med 2024-07-31-preview release har Read-modellen stöd för sökbara PDF-utdata:

Kommentar

  • Alla tilläggsfunktioner stöds inte av alla modeller. Mer information finns i extrahering av modelldata.

  • Tilläggsfunktioner stöds för närvarande inte för Microsoft kancelarija filtyper.

Dokumentinformation stöder valfria funktioner som kan aktiveras och inaktiveras beroende på scenariot för dokumentextrahering. Följande tilläggsfunktioner är tillgängliga för 2023-10-31-preview, och senare versioner:

Kommentar

Implementeringen av frågefälten i API:et 2023-10-30-preview skiljer sig från den senaste förhandsversionen. Den nya implementeringen är billigare och fungerar bra med strukturerade dokument.

Versionstillgänglighet

Tilläggsfunktion Tillägg/kostnadsfritt 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extrahering av teckensnittsegenskap Tillägg ✔️ ✔️ saknas saknas
Formelextrahering Tillägg ✔️ ✔️ saknas saknas
Högupplösningsextrahering Tillägg ✔️ ✔️ saknas saknas
Extrahering av streckkod Kostnadsfri ✔️ ✔️ saknas saknas
Språkidentifiering Kostnadsfri ✔️ ✔️ saknas saknas
Nyckelvärdepar Kostnadsfri ✔️ saknas n/a saknas
Frågefält Tillägg* ✔️ saknas n/a saknas

✱ Tillägg – Frågefält prissätts på ett annat sätt än de andra tilläggsfunktionerna. Mer information finns i priser .

Filformat som stöds

  • PDF

  • Bilder: JPEG/JPG, PNG, BMP, , TIFFHEIF

✱ Microsoft kancelarija filer stöds för närvarande inte.

Högupplösningsextrahering

Uppgiften att känna igen liten text från stora dokument, till exempel tekniska ritningar, är en utmaning. Ofta blandas texten med andra grafiska element och har olika teckensnitt, storlekar och orienteringar. Dessutom kan texten delas upp i separata delar eller kopplas till andra symboler. Dokumentinformation har nu stöd för att extrahera innehåll från dessa typer av dokument med funktionen ocr.highResolution . Du får bättre kvalitet på extrahering av innehåll från A1/A2/A3-dokument genom att aktivera den här tilläggsfunktionen.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Formelextrahering

Funktionen ocr.formula extraherar alla identifierade formler, till exempel matematiska ekvationer, i formulas samlingen som ett objekt på toppnivå under content. Inuti contentrepresenteras identifierade formler som :formula:. Varje post i den här samlingen representerar en formel som innehåller formeltypen som inline eller display, och dess LaTeX-representation tillsammans value med dess polygon koordinater. Inledningsvis visas formler i slutet av varje sida.

Kommentar

Poängen confidence är hårdkodad.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extrahering av teckensnittsegenskap

Funktionen ocr.font extraherar alla teckensnittsegenskaper för text som extraheras i styles samlingen som ett objekt på översta nivån under content. Varje formatobjekt anger en enskild teckensnittsegenskap, det textintervall som det gäller för och dess motsvarande konfidenspoäng. Den befintliga formategenskapen utökas med fler teckensnittsegenskaper, till exempel similarFontFamily för textens teckensnitt, fontStyle för format som kursiv och normal, för fetstil eller normal, fontWeight color för textfärg och backgroundColor för textavgränsningsrutans färg.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extrahering av streckkodsegenskap

Funktionen ocr.barcode extraherar alla identifierade streckkoder i barcodes samlingen som ett objekt på översta nivån under content. I , contentrepresenteras identifierade streckkoder som :barcode:. Varje post i den här samlingen representerar en streckkod och innehåller streckkodstypen som kind och det inbäddade streckkodsinnehållet samt value dess polygon koordinater. Inledningsvis visas streckkoder i slutet av varje sida. confidence är hårdkodad för som 1.

Streckkodstyper som stöds

Streckkodstyp Exempel
QR Code Skärmbild av QR Code.
Code 39 Skärmbild av kod 39.
Code 93 Skärmbild av kod 93.
Code 128 Skärmbild av Kod 128.
UPC (UPC-A & UPC-E) Skärmbild av UPC.
PDF417 Skärmbild av PDF417.
EAN-8 Skärmbild av streckkoden european-article-number ean-8.
EAN-13 Skärmbild av streckkoden european-article-number ean-13.
Codabar Skärmbild av Codabar.
Databar Skärmbild av datafältet.
Databar Utökad Skärmbild av datafältet Expanderat.
ITF Skärmbild av streckkoden interleaved-two-of-five (ITF).
Data Matrix Skärmbild av datamatrisen.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Språkidentifiering

languages Om du lägger till funktionen i analyzeResult begäran förutsäger du det identifierade primära språket för varje textrad tillsammans med confidence i languages samlingen under analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Sökbar PDF

Med den sökbara PDF-funktionen kan du konvertera en analog PDF, till exempel skannade PDF-filer, till en PDF med inbäddad text. Den inbäddade texten möjliggör djuptextsökning i PDF-filens extraherade innehåll genom att lägga över de identifierade textentiteterna ovanpå bildfilerna.

Viktigt!

  • För närvarande stöds den sökbara PDF-funktionen endast av Read OCR-modellen prebuilt-read. När du använder den här funktionen anger modelId du som prebuilt-read, eftersom andra modelltyper returnerar fel för den här förhandsversionen.
  • Sökbar PDF ingår i modellen 2024-07-31-preview prebuilt-read utan användningskostnad för allmän PDF-förbrukning.

Använda sökbar PDF

Om du vill använda sökbar PDF gör du en POST begäran med hjälp av Analyze åtgärden och anger utdataformatet som pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

När åtgärden Analyze är klar gör du en GET begäran om att hämta åtgärdsresultatet Analyze .

När pdf-filen har slutförts kan den hämtas och laddas ned som application/pdf. Den här åtgärden möjliggör direkt nedladdning av den inbäddade textformen pdf i stället för Base64-kodad JSON.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Nyckel/värde-par

I tidigare API-versioner extraherade den fördefinierade dokumentmodellen nyckel/värde-par från formulär och dokument. Med tillägg av keyValuePairs funktionen i den fördefinierade layouten ger layoutmodellen nu samma resultat.

Nyckel/värde-par är specifika intervall i dokumentet som identifierar en etikett eller nyckel och dess associerade svar eller värde. I ett strukturerat formulär kan dessa par vara etiketten och värdet som användaren angav för fältet. I ett ostrukturerat dokument kan det vara det datum då ett kontrakt utfördes baserat på texten i ett stycke. AI-modellen tränas för att extrahera identifierbara nycklar och värden baserat på en mängd olika dokumenttyper, format och strukturer.

Nycklar kan också finnas isolerat när modellen upptäcker att en nyckel finns, utan associerat värde eller när valfria fält bearbetas. Ett mellannamnsfält kan till exempel lämnas tomt i ett formulär i vissa fall. Nyckel/värde-par är textintervall som finns i dokumentet. För dokument där samma värde beskrivs på olika sätt, till exempel kund/användare, är den associerade nyckeln antingen kund eller användare (baserat på kontext).

REST-API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Frågefält

Frågefält är en tilläggsfunktion för att utöka schemat som extraherats från en fördefinierad modell eller definiera ett specifikt nyckelnamn när nyckelnamnet är variabel. Om du vill använda frågefält anger du funktionerna till queryFields och anger en kommaavgränsad lista med fältnamn i queryFields egenskapen.

  • Dokumentinformation stöder nu extrahering av frågefält. Med extrahering av frågefält kan du lägga till fält i extraheringsprocessen med hjälp av en frågebegäran utan att behöva lägga till utbildning.

  • Använd frågefält när du behöver utöka schemat för en fördefinierad eller anpassad modell eller behöver extrahera några fält med utdata från layouten.

  • Frågefält är en premium-tilläggsfunktion. För bästa resultat definierar du de fält som du vill extrahera med hjälp av kamelfall eller Pascal-skiftlägesfältnamn för fältnamn med flera ord.

  • Frågefält stöder högst 20 fält per begäran. Om dokumentet innehåller ett värde för fältet returneras fältet och värdet.

  • Den här versionen har en ny implementering av frågefältsfunktionen som är lägre än den tidigare implementeringen och bör valideras.

Kommentar

Extrahering av frågefält i Document Intelligence Studio är för närvarande tillgängligt med API:US taxet layout och fördefinierade modeller 2024-02-29-preview 2023-10-31-preview och senare versioner förutom modellerna (W2, 1098s och 1099s-modeller).

Extrahering av frågefält

För extrahering av frågefält anger du de fält som du vill extrahera och Dokumentinformation analyserar dokumentet därefter. Här är ett exempel:

  • Om du bearbetar ett kontrakt i Document Intelligence Studio använder du versionerna 2024-02-29-preview eller 2023-10-31-preview :

    Skärmbild av knappen frågefält i Document Intelligence Studio.

  • Du kan skicka en lista med fältetiketter som Party1, Party2, TermsOfUse, PaymentTerms, PaymentDateoch TermEndDate som en del av analyze document begäran.

    Skärmbild av urvalsfönstret för frågefält i Document Intelligence Studio.

  • Dokumentinformation kan analysera och extrahera fältdata och returnera värdena i en strukturerad JSON-utdata.

  • Förutom frågefälten innehåller svaret text, tabeller, markeringsmarkeringar och andra relevanta data.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Nästa steg

SDK-exempel: python

Hitta fler exempel: Tilläggsfunktioner

Hitta fler exempel: Tilläggsfunktioner