Incrementele classificaties voor documentinformatie gebruiken

Artikel
10/16/2024

Deze inhoud is van toepassing op: v4.0 (preview)

Azure AI Document Intelligence is een cloudgebaseerde Azure AI-service waarmee u intelligente oplossingen voor documentverwerking kunt bouwen. Document Intelligence-API's analyseren afbeeldingen, PDF-bestanden en andere documentbestanden om verschillende inhoud, indeling, stijl en semantische elementen te extraheren en te detecteren.

Aangepaste document intelligence-classificatiemodellen zijn deep learning-modeltypen die indelings- en taalfuncties combineren om documenten die u in uw toepassingen verwerkt nauwkeurig te detecteren en identificeren. Aangepaste classificatiemodellen voeren classificatie van invoerbestanden één pagina tegelijk uit om de documenten binnen te identificeren en kunnen ook meerdere documenten of meerdere exemplaren van één document in een invoerbestand identificeren.

Document Intelligence-documentclassificaties identificeren bekende documenttypen in bestanden. Bij het verwerken van een invoerbestand met meerdere documenttypen of wanneer u het documenttype niet kent, gebruikt u een classificatie om het document te identificeren. Classificaties moeten periodiek worden bijgewerkt wanneer de volgende wijzigingen optreden:

U voegt nieuwe sjablonen toe voor een bestaande klasse.
U voegt nieuwe documenttypen toe voor herkenning.
Classificatievertrouwen is laag.

In sommige scenario's kunt u niet langer de oorspronkelijke set documenten gebruiken om de classificatie te trainen. Met incrementele training kunt u de classificatie bijwerken met alleen de nieuwe gelabelde voorbeelden.

Notitie

Incrementele training is alleen van toepassing op documentclassificatiemodellen en niet op aangepaste modellen.

Incrementele training is handig als u de kwaliteit van een aangepaste classificatie wilt verbeteren. Het toevoegen van nieuwe trainingsvoorbeelden voor bestaande klassen verbetert het vertrouwen van het model voor bestaande documenttypen. Als er bijvoorbeeld een nieuwe versie van een bestaand formulier wordt toegevoegd of als er een nieuw documenttype is. Een voorbeeld hiervan kan zijn wanneer uw toepassing een nieuw documenttype als geldige invoer gaat ondersteunen.

Aan de slag met incrementele training

Incrementele training introduceert geen nieuwe API-eindpunten.
De nettolading van de documentClassifiers:build aanvraag wordt gewijzigd ter ondersteuning van incrementele training.
Incrementele training resulteert in een nieuw classificatiemodel dat wordt gemaakt met de bestaande classificatie ongewijzigd gelaten.
De nieuwe classificatie bevat alle documentvoorbeelden en -typen van de oude classificatie, samen met de nieuwe voorbeelden. U moet ervoor zorgen dat uw toepassing werkt met de zojuist getrainde classificatie.

Notitie

Kopieerbewerking voor classificaties is momenteel niet beschikbaar.

Een incrementele classificatie-buildaanvraag maken

De incrementele classificatie-buildaanvraag is vergelijkbaar met de classify document build-aanvraag , maar bevat de nieuwe baseClassifierId eigenschap. De baseClassifierId functie is ingesteld op de bestaande classificatie die u wilt uitbreiden. U moet ook de docTypes verschillende documenttypen in de voorbeeldset opgeven. Door een docType die in de baseClassifier aanwezig is, worden de voorbeelden in de aanvraag toegevoegd aan de voorbeelden die zijn opgegeven toen de basisclassificatie werd getraind. Nieuwe docType waarden die zijn toegevoegd aan de incrementele training, worden alleen toegevoegd aan de nieuwe classificatie. Het proces voor het opgeven van de steekproeven blijft ongewijzigd. Zie het trainen van een classificatiemodel voor meer informatie.

Voorbeeld van POST-aanvraag

Voorbeeldaanvraag POST voor het bouwen van een incrementele documentclassificatie

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

POST-antwoord

Alle Document Intelligence-API's zijn asynchroon. Het pollen van de locatie van de geretourneerde bewerking biedt een status voor de buildbewerking. Classificaties zijn snel te trainen en uw classificatie kan binnen een minuut of twee worden gebruikt.

Na een geslaagde voltooiing:

De geslaagde POST methode retourneert een 202 OK antwoordcode die aangeeft dat de service de aanvraag heeft gemaakt.
De vertaalde documenten bevinden zich in uw doelcontainer.
De POST aanvraag retourneert ook antwoordheaders, waaronder Operation-Location. De waarde van deze header bevat een resultId query die kan worden uitgevoerd om de status van de asynchrone bewerking op te halen en de resultaten op te halen met behulp van een GET aanvraag met dezelfde resourceabonnementssleutel.

Voorbeeld van GET-aanvraag

Voorbeeldaanvraag GET voor het ophalen van het resultaat van een incrementele documentclassificatie

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

GET-antwoord

Het GET antwoord van een incrementeel getrainde classificatie verschilt van het standaardclassificatieantwoord GET . De stapsgewijze getrainde classificatie retourneert niet alle ondersteunde documenttypen. Hiermee worden de documenttypen geretourneerd die zijn toegevoegd aan of bijgewerkt in de incrementele trainingsstap en de uitgebreide basisclassificatie. Als u een volledige lijst met documenttypen wilt ophalen, moet de basisclassificatie worden vermeld. Het verwijderen van een basisclassificatie heeft geen invloed op het gebruik van een incrementele getrainde classificatie.

Limieten

Incrementele training werkt alleen wanneer de basisclassificatie en de incrementeel getrainde classificatie beide worden getraind op dezelfde API-versie. Als gevolg hiervan heeft de incrementeel getrainde classificatie dezelfde modellevenscyclus als de basisclassificatie.
Limieten voor de grootte van de trainingsgegevensset voor de incrementele classificatie zijn hetzelfde als voor een ander classificatiemodel. Zie servicelimieten voor een volledige lijst met toepasselijke limieten.

Volgende stappen

Meer informatie over documentclassificatie

Delen via