Anpassad klassificeringsmodell för Dokumentinformation

Artikel
03/10/2024

Viktigt!

Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling.
Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-02-29-preview.
Förhandsversion 2024-02-29-preview är för närvarande endast tillgänglig i följande Azure-regioner:
USA, östra
USA, västra 2
Europa, västra

Det här innehållet gäller för:v4.0 (förhandsversion) | Tidigare version:v3.1 (GA)

Det här innehållet gäller för:v3.1 (GA) | Senaste version:v4.0 (förhandsversion)

Viktigt!

API:et 2024-02-29-preview , den anpassade klassificeringsmodellen delar inte dokument som standard under analysprocessen.
Du måste uttryckligen splitMode ange egenskapen till automatisk för att bevara beteendet från tidigare versioner. Standardvärdet för splitMode är none.
Om indatafilen innehåller flera dokument måste du aktivera delning genom att ange splitMode till auto.

Azure AI Document Intelligence är en molnbaserad Azure AI-tjänst som gör att du kan skapa intelligenta lösningar för dokumentbearbetning. API:er för dokumentinformation analyserar bilder, PDF-filer och andra dokumentfiler för att extrahera och identifiera olika innehåll, layout, format och semantiska element.

Anpassade klassificeringsmodeller är djupinlärningsmodelltyper som kombinerar layout- och språkfunktioner för att korrekt identifiera och identifiera dokument som du bearbetar i ditt program. Anpassade klassificeringsmodeller utför klassificering av en indatafil en sida i taget för att identifiera dokumenten i och kan även identifiera flera dokument eller flera instanser av ett enda dokument i en indatafil.

Modellfunktioner

Kommentar

Från och med API:et 2024-02-29-preview stöder anpassade clasification-modeller inkrementell träning. Du kan lägga till nya exempel i befintliga klasser eller lägga till nya klasser genom att referera till en befintlig klassificerare.

Anpassade klassificeringsmodeller kan analysera ett dokument med en eller flera filer för att identifiera om någon av de tränade dokumenttyperna finns i en indatafil. Här är de scenarier som stöds för närvarande:

En enda fil som innehåller ett dokument. Till exempel ett formulär för låneansökan.
En enda fil som innehåller flera dokument. Till exempel ett låneprogrampaket som innehåller ett låneformulär, lönebesked och bankutdrag.
En enda fil som innehåller flera instanser av samma dokument. Till exempel en samling skannade fakturor.

✔️ Träning av five en anpassad klassificerare kräver minst two distinkta klasser och minst dokumentexempel per klass. Modellsvaret innehåller sidintervallen för var och en av de dokumentklasser som identifieras.

✔️ Det maximala tillåtna antalet klasser är 500. Det maximala tillåtna antalet dokumentexempel per klass är 100.

Modellen klassificerar varje sida i indatadokumentet till en av klasserna i den märkta datauppsättningen. Om du vill ange tröskelvärdet för ditt program använder du konfidenspoängen från svaret.

Inkrementell träning

Med anpassade modeller måste du behålla åtkomsten till träningsdatauppsättningen för att uppdatera klassificeraren med nya exempel för en befintlig klass eller lägga till nya klasser. Klassificerarmodeller stöder nu inkrementell träning där du kan referera till en befintlig klassificerare och lägga till nya exempel för en befintlig klass eller lägga till nya klasser med exempel. Inkrementell träning möjliggör scenarier där datakvarhållning är en utmaning och klassificeraren måste uppdateras för att anpassas till föränderliga affärsbehov. Inkrementell träning stöds med modeller som tränats med API-version 2024-02-29-preview och senare.

Viktigt!

Inkrementell träning stöds endast med modeller som tränats med samma API-version. Om du försöker utöka en modell använder du DEN API-version som den ursprungliga modellen tränades med för att utöka modellen. Inkrementell träning stöds endast med API-version 2024-02-29-preview eller senare.

Inkrementell träning kräver att du anger det ursprungliga modell-ID:t baseClassifierIdsom . Mer information om hur du använder inkrementell träning finns i inkrementell träning .

Stöd för Office-dokumenttyp

Nu kan du träna klassificerare att identifiera dokumenttyper i olika format, inklusive PDF, bilder, Word, PowerPoint och Excel. När du monterar din träningsdatauppsättning kan du lägga till dokument av någon av de typer som stöds. Klassificeraren kräver inte att du uttryckligen etiketterar specifika typer. Bästa praxis är att se till att din träningsdatauppsättning har minst ett urval av varje format för att förbättra modellens övergripande noggrannhet.

Jämför anpassad klassificering och sammansatta modeller

En anpassad klassificeringsmodell kan ersätta en sammansatt modell i vissa scenarier, men det finns några skillnader att vara medveten om:

Kapacitet	Anpassad klassificerarprocess	Process för sammansatt modell
Analysera ett enda dokument av okänd typ som tillhör en av de typer som tränats för bearbetning av extraheringsmodeller.	● Kräver flera anrop. ● Anropa klassificeringsmodellen baserat på dokumentklassen. Det här steget möjliggör en konfidensbaserad kontroll innan du anropar analys av extraheringsmodellen. ● Anropa extraheringsmodellen.	● Kräver ett enda anrop till en sammansatt modell som innehåller modellen som motsvarar indatadokumenttypen.
Analysera ett enda dokument av okänd typ som tillhör flera typer som tränats för bearbetning av extraheringsmodeller.	●Kräver flera anrop. ● Anropa klassificeraren som ignorerar dokument som inte matchar en angiven typ för extrahering. ● Anropa extraheringsmodellen.	● Kräver ett enda anrop till en sammansatt modell. Tjänsten väljer en anpassad modell i den sammansatta modellen med den högsta matchningen. ● En sammansatt modell kan inte ignorera dokument.
Analysera en fil som innehåller flera dokument av känd eller okänd typ som tillhör någon av de typer som tränats för bearbetning av extraheringsmodeller.	● Kräver flera anrop. ● Anropa extraheringsmodellen för varje identifierat dokument i indatafilen. ● Anropa extraheringsmodellen.	● Kräver ett enda anrop till en sammansatt modell. ● Den sammansatta modellen anropar komponentmodellen en gång på den första instansen av dokumentet. ●De återstående dokumenten ignoreras.

Språkstöd

Klassificeringsmodeller stöder för närvarande endast engelskspråkiga dokument.

Klassificeringsmodeller kan nu tränas på dokument med olika språk. En fullständig lista finns i språk som stöds.

Indatakrav

Filformat som stöds:

Modell	PDF	Bild: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx)
Lästa	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview och senare)
Allmänt dokument	✔	✔
Inbyggda	✔	✔
Anpassad extrahering	✔	✔
Anpassad klassificering	✔	✔	✔

Ge fem tydliga foton eller högkvalitativa genomsökningar per dokumenttyp för bästa resultat.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär 8-punkttext vid 150 punkter per tum (DPI).
För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.
För anpassad klassificeringsmodellträning är den totala storleken på träningsdata 1 GB med högst 10 000 sidor.

Dokumentdelning

När du har fler än ett dokument i en fil kan klassificeraren identifiera de olika dokumenttyperna i indatafilen. Klassificerarens svar innehåller sidintervallen för var och en av de identifierade dokumenttyperna som finns i en fil. Det här svaret kan innehålla flera instanser av samma dokumenttyp.

Analysåtgärden innehåller nu en splitMode egenskap som ger dig detaljerad kontroll över delningsbeteendet.

Om du vill behandla hela indatafilen som ett enda dokument för klassificering anger du splitMode till none. När du gör det returnerar tjänsten bara en klass för hela indatafilen.
Om du vill klassificera varje sida i indatafilen anger du splitMode till perPage. Tjänsten försöker klassificera varje sida som ett enskilt dokument.
Ange splitMode till auto och tjänsten identifierar dokument och associerade sidintervall.

Bästa praxis

Anpassade klassificeringsmodeller kräver minst fem exempel per klass för träning. Om klasserna är liknande förbättras modellens noggrannhet genom att lägga till extra träningsexempel.

Klassificeraren försöker tilldela varje dokument till en av klasserna, om du förväntar dig att modellen ska se dokumenttyper som inte finns i de klasser som ingår i träningsdatauppsättningen bör du planera att ange ett tröskelvärde för klassificeringspoängen eller lägga till några representativa exempel på dokumenttyperna i en "other" klass. Genom att lägga till en "other" klass ser du till att dokument som inte behövs inte påverkar klassificerarens kvalitet.

Träna en modell

Anpassade klassificeringsmodeller stöds av API:erna v4.0:2024-02-29-preview och v3.1:2023-07-31 (GA ). Document Intelligence Studio tillhandahåller ett användargränssnitt utan kod för att interaktivt träna en anpassad klassificerare. Följ guiden för att komma igång.

Om du använder REST-API:et kan du använda azureBlobSource egenskapen för begäran för att träna en klassificeringsmodell om du organiserar dina dokument efter mappar.


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Om du har en platt lista med filer eller bara planerar att använda några få utvalda filer i varje mapp för att träna modellen kan du använda azureBlobFileListSource egenskapen för att träna modellen. Det här steget kräver ett file list I JSON Lines-format . För varje klass lägger du till en ny fil med en lista över filer som ska skickas för träning.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Till exempel innehåller fillistan car-maint.jsonl följande filer.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Modellsvar

Analysera en indatafil med dokumentklassificeringsmodellen.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview

https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Svaret innehåller identifierade dokument med tillhörande sidintervall i dokumentavsnittet i svaret.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Nästa steg

Lär dig hur du skapar anpassade klassificeringsmodeller:

Skapa en anpassad klassificeringsmodell– Översikt över anpassade modeller

Anpassad klassificeringsmodell för Dokumentinformation

Modellfunktioner

Inkrementell träning

Stöd för Office-dokumenttyp

Jämför anpassad klassificering och sammansatta modeller

Språkstöd

Indatakrav

Dokumentdelning

Bästa praxis

Träna en modell

Modellsvar

Nästa steg

Ytterligare resurser