Dela via


Använda inkrementella klassificerare för dokumentinformation

Det här innehållet gäller för: Bockmarkering v4.0 (förhandsversion) Bockmarkering

Azure AI Document Intelligence är en molnbaserad Azure AI-tjänst som gör att du kan skapa intelligenta lösningar för dokumentbearbetning. API:er för dokumentinformation analyserar bilder, PDF-filer och andra dokumentfiler för att extrahera och identifiera olika innehåll, layout, format och semantiska element.

Anpassade klassificeringsmodeller för Dokumentinformation är djupinlärningsmodelltyper som kombinerar layout- och språkfunktioner för att korrekt identifiera och identifiera dokument som du bearbetar i dina program. Anpassade klassificeringsmodeller utför klassificering av indatafiler en sida i taget för att identifiera dokumenten i och kan även identifiera flera dokument eller flera instanser av ett enda dokument i en indatafil.

Dokumentklassificerare för Dokumentinformation identifierar kända dokumenttyper i filer. När du bearbetar en indatafil med flera dokumenttyper eller när du inte känner till dokumenttypen använder du en klassificerare för att identifiera dokumentet. Klassificerare bör uppdateras regelbundet när följande ändringar sker:

  • Du lägger till nya mallar för en befintlig klass.
  • Du lägger till nya dokumenttyper för igenkänning.
  • Klassificerarens förtroende är lågt.

I vissa scenarier kan du inte längre ha den ursprungliga uppsättningen dokument som används för att träna klassificeraren. Med inkrementell träning kan du uppdatera klassificeraren med bara de nya märkta exemplen.

Kommentar

Inkrementell träning gäller endast för dokumentklassificerare och inte anpassade modeller.

Inkrementell träning är användbar när du vill förbättra kvaliteten på en anpassad klassificerare. Om du lägger till nya träningsexempel för befintliga klasser förbättras modellens förtroende för befintliga dokumenttyper. Om till exempel en ny version av ett befintligt formulär läggs till eller om det finns en ny dokumenttyp. Ett exempel kan vara när programmet börjar stödja en ny dokumenttyp som en giltig indata.

Komma igång med inkrementell träning

  • Inkrementell träning introducerar inga nya API-slutpunkter.

  • Nyttolasten documentClassifiers:build för begäran ändras för att stödja inkrementell träning.

  • Inkrementell träning resulterar i att en ny klassificerarmodell skapas med den befintliga klassificeraren orörd.

  • Den nya klassificeraren har alla dokumentexempel och typer av den gamla klassificeraren tillsammans med de nyligen angivna exemplen. Du måste se till att programmet uppdateras för att fungera med den nytränade klassificeraren.

    Kommentar

    Kopieringsåtgärden för klassificerare är för närvarande inte tillgänglig.

Skapa en inkrementell klassificeringsversionsbegäran

Byggbegäran för inkrementell klassificerare liknar classify document byggbegäran men innehåller den nya baseClassifierId egenskapen. baseClassifierId är inställt på den befintliga klassificerare som du vill utöka. Du måste också ange docTypes för de olika dokumenttyperna i exempeluppsättningen. Genom att tillhandahålla en docType som finns i baseClassifier läggs exemplen som anges i begäran till i de exempel som tillhandahölls när basklassificeraren tränades. Nya docType värden som läggs till i den inkrementella träningen läggs bara till i den nya klassificeraren. Processen för att ange exemplen förblir oförändrad. Mer information finns i träna en klassificerarmodell.

Exempel på POST-begäran

Exempelbegäran POST om att skapa en inkrementell dokumentklassificerare

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

POST-svar

Alla API:er för dokumentinformation är asynkrona. Avsökning av den returnerade åtgärdsplatsen ger status för byggåtgärden. Klassificerare är snabba att träna och klassificeraren kan vara redo att användas om en minut eller två.

När det har slutförts:

  • Den lyckade POST metoden returnerar en 202 OK svarskod som anger att tjänsten skapade begäran.
  • De översatta dokumenten finns i målcontainern.
  • Begäran POST returnerar även svarshuvuden inklusive Operation-Location. Värdet för det här huvudet innehåller en resultId som kan efterfrågas för att hämta status för den asynkrona åtgärden och hämta resultatet med hjälp av en GET begäran med samma resursprenumerationsnyckel.

Exempel på GET-begäran

Exempelbegäran GET för att hämta resultatet av en inkrementell dokumentklassificerare

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

GET-svar

Svaret GET från en inkrementellt tränad klassificerare skiljer sig från standardklassificerarens GET svar. Den inkrementellt tränade klassificeraren returnerar inte alla dokumenttyper som stöds. Den returnerar de dokumenttyper som har lagts till eller uppdaterats i det inkrementella träningssteget och den utökade basklassificeraren. För att få en fullständig lista över dokumenttyper måste basklassificeraren visas. Att ta bort en basklassificerare påverkar inte användningen av en inkrementellt tränad klassificerare.

Gränser

  • Inkrementell träning fungerar bara när både basklassificeraren och den inkrementellt tränade klassificeraren tränas på samma API-version. Därför har den inkrementellt tränade klassificeraren samma modelllivscykel som basklassificeraren.

  • Storleksbegränsningar för träningsdatauppsättningar för den inkrementella klassificeraren är desamma som för andra klassificerarmodeller. Se tjänstbegränsningar för en fullständig lista över tillämpliga gränser.

Nästa steg