Incrementele classificaties voor documentinformatie gebruiken
Deze inhoud is van toepassing op: v4.0 (preview)
Azure AI Document Intelligence is een cloudgebaseerde Azure AI-service waarmee u intelligente oplossingen voor documentverwerking kunt bouwen. Document Intelligence-API's analyseren afbeeldingen, PDF-bestanden en andere documentbestanden om verschillende inhoud, indeling, stijl en semantische elementen te extraheren en te detecteren.
Aangepaste document intelligence-classificatiemodellen zijn deep learning-modeltypen die indelings- en taalfuncties combineren om documenten die u in uw toepassingen verwerkt nauwkeurig te detecteren en identificeren. Aangepaste classificatiemodellen voeren classificatie van invoerbestanden één pagina tegelijk uit om de documenten binnen te identificeren en kunnen ook meerdere documenten of meerdere exemplaren van één document in een invoerbestand identificeren.
Document Intelligence-documentclassificaties identificeren bekende documenttypen in bestanden. Bij het verwerken van een invoerbestand met meerdere documenttypen of wanneer u het documenttype niet kent, gebruikt u een classificatie om het document te identificeren. Classificaties moeten periodiek worden bijgewerkt wanneer de volgende wijzigingen optreden:
- U voegt nieuwe sjablonen toe voor een bestaande klasse.
- U voegt nieuwe documenttypen toe voor herkenning.
- Classificatievertrouwen is laag.
In sommige scenario's kunt u niet langer de oorspronkelijke set documenten gebruiken om de classificatie te trainen. Met incrementele training kunt u de classificatie bijwerken met alleen de nieuwe gelabelde voorbeelden.
Notitie
Incrementele training is alleen van toepassing op documentclassificatiemodellen en niet op aangepaste modellen.
Incrementele training is handig als u de kwaliteit van een aangepaste classificatie wilt verbeteren. Het toevoegen van nieuwe trainingsvoorbeelden voor bestaande klassen verbetert het vertrouwen van het model voor bestaande documenttypen. Als er bijvoorbeeld een nieuwe versie van een bestaand formulier wordt toegevoegd of als er een nieuw documenttype is. Een voorbeeld hiervan kan zijn wanneer uw toepassing een nieuw documenttype als geldige invoer gaat ondersteunen.
Aan de slag met incrementele training
Incrementele training introduceert geen nieuwe API-eindpunten.
De nettolading van de
documentClassifiers:build
aanvraag wordt gewijzigd ter ondersteuning van incrementele training.Incrementele training resulteert in een nieuw classificatiemodel dat wordt gemaakt met de bestaande classificatie ongewijzigd gelaten.
De nieuwe classificatie bevat alle documentvoorbeelden en -typen van de oude classificatie, samen met de nieuwe voorbeelden. U moet ervoor zorgen dat uw toepassing werkt met de zojuist getrainde classificatie.
Notitie
Kopieerbewerking voor classificaties is momenteel niet beschikbaar.
Een incrementele classificatie-buildaanvraag maken
De incrementele classificatie-buildaanvraag is vergelijkbaar met de classify document
build-aanvraag , maar bevat de nieuwe baseClassifierId
eigenschap. De baseClassifierId
functie is ingesteld op de bestaande classificatie die u wilt uitbreiden. U moet ook de docTypes
verschillende documenttypen in de voorbeeldset opgeven. Door een docType
die in de baseClassifier aanwezig is, worden de voorbeelden in de aanvraag toegevoegd aan de voorbeelden die zijn opgegeven toen de basisclassificatie werd getraind. Nieuwe docType
waarden die zijn toegevoegd aan de incrementele training, worden alleen toegevoegd aan de nieuwe classificatie. Het proces voor het opgeven van de steekproeven blijft ongewijzigd. Zie het trainen van een classificatiemodel voor meer informatie.
Voorbeeld van POST-aanvraag
Voorbeeldaanvraag POST
voor het bouwen van een incrementele documentclassificatie
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
POST-antwoord
Alle Document Intelligence-API's zijn asynchroon. Het pollen van de locatie van de geretourneerde bewerking biedt een status voor de buildbewerking. Classificaties zijn snel te trainen en uw classificatie kan binnen een minuut of twee worden gebruikt.
Na een geslaagde voltooiing:
- De geslaagde
POST
methode retourneert een202 OK
antwoordcode die aangeeft dat de service de aanvraag heeft gemaakt. - De vertaalde documenten bevinden zich in uw doelcontainer.
- De
POST
aanvraag retourneert ook antwoordheaders, waaronderOperation-Location
. De waarde van deze header bevat eenresultId
query die kan worden uitgevoerd om de status van de asynchrone bewerking op te halen en de resultaten op te halen met behulp van eenGET
aanvraag met dezelfde resourceabonnementssleutel.
Voorbeeld van GET-aanvraag
Voorbeeldaanvraag GET
voor het ophalen van het resultaat van een incrementele documentclassificatie
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
GET-antwoord
Het GET
antwoord van een incrementeel getrainde classificatie verschilt van het standaardclassificatieantwoord GET
. De stapsgewijze getrainde classificatie retourneert niet alle ondersteunde documenttypen. Hiermee worden de documenttypen geretourneerd die zijn toegevoegd aan of bijgewerkt in de incrementele trainingsstap en de uitgebreide basisclassificatie. Als u een volledige lijst met documenttypen wilt ophalen, moet de basisclassificatie worden vermeld. Het verwijderen van een basisclassificatie heeft geen invloed op het gebruik van een incrementele getrainde classificatie.
Limieten
Incrementele training werkt alleen wanneer de basisclassificatie en de incrementeel getrainde classificatie beide worden getraind op dezelfde API-versie. Als gevolg hiervan heeft de incrementeel getrainde classificatie dezelfde modellevenscyclus als de basisclassificatie.
Limieten voor de grootte van de trainingsgegevensset voor de incrementele classificatie zijn hetzelfde als voor een ander classificatiemodel. Zie servicelimieten voor een volledige lijst met toepasselijke limieten.
Volgende stappen
- Meer informatie over documentclassificatie