Training del classificatore incrementale
Questo contenuto si applica a:v4.0 (anteprima)
Intelligence sui documenti di Intelligenza artificiale di Azure è un servizio di intelligenza artificiale di Azure basato sul cloud che consente di creare soluzioni intelligenti di elaborazione dei documenti. Le API di Intelligence per i documenti analizzano immagini, PDF e altri file di documento per estrarre e rilevare vari contenuti, layout, stile ed elementi semantici.
I modelli di classificazione personalizzati di Document Intelligence sono tipi di modelli di Deep Learning che combinano funzionalità di layout e linguaggio per rilevare e identificare in modo accurato i documenti elaborati all'interno delle applicazioni. I modelli di classificazione personalizzati eseguono la classificazione dei file di input una pagina alla volta per identificare i documenti all'interno e possono anche identificare più documenti o più istanze di un singolo documento all'interno di un file di input.
I classificatori di documenti di Intelligence per documenti identificano i tipi di documento noti nei file. Quando si elabora un file di input con più tipi di documento o quando non si conosce il tipo di documento, usare un classificatore per identificare il documento. I classificatori devono essere aggiornati periodicamente quando si aggiungono nuovi modelli per una classe esistente, si aggiungono nuovi tipi di documento per il riconoscimento o la confidenza del classificatore è bassa. In alcuni scenari non è più possibile avere il set originale di documenti usato per eseguire il training del classificatore. Con il training incrementale, è ora possibile aggiornare il classificatore con solo i nuovi esempi etichettati.
Nota
Il training incrementale si applica solo ai modelli di classificatore di documenti e non ai modelli personalizzati.
Il training incrementale è utile quando si vuole migliorare la qualità di un classificatore personalizzato. L'aggiunta di nuovi esempi di training per le classi esistenti migliora l'attendibilità del modello per i tipi di documento esistenti. Ad esempio, se viene aggiunta una nuova versione di un modulo esistente o se è presente un nuovo tipo di documento. Un esempio può essere quando l'applicazione inizia a supportare un nuovo tipo di documento come input valido.
Introduzione al training incrementale
Il training incrementale non introduce nuovi endpoint API.
Il payload della
documentClassifiers:build
richiesta viene modificato per supportare il training incrementale.Il training incrementale comporta la creazione di un nuovo modello di classificatore con il classificatore esistente lasciato invariato.
Il nuovo classificatore include tutti gli esempi di documento e i tipi del classificatore precedente insieme agli esempi appena forniti. È necessario assicurarsi che l'applicazione sia aggiornata per usare il classificatore appena sottoposto a training.
Nota
L'operazione di copia per i classificatori non è attualmente disponibile.
Creare una richiesta di compilazione del classificatore incrementale
La richiesta di compilazione incrementale del classificatore è simile alla richiesta di compilazione del documento di classificazione, ma include la nuova baseClassifierId
proprietà. baseClassifierId
è impostato sul classificatore esistente che si desidera estendere. È anche necessario specificare docTypes
per i diversi tipi di documento nel set di esempio. Fornendo un docType
oggetto esistente in baseClassifier, gli esempi forniti nella richiesta vengono aggiunti agli esempi forniti quando è stato eseguito il training del classificatore di base. I nuovi docType
valori aggiunti nel training incrementale vengono aggiunti solo al nuovo classificatore. Il processo per specificare gli esempi rimane invariato. Per altre informazioni, vedereTraining di un modello di classificatore.
Richiesta POST di esempio
Richiesta di esempio POST
per compilare un classificatore incrementale di documenti
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
Risposta POST
Tutte le API di Business Intelligence per i documenti sono asincrone e il polling del percorso dell'operazione restituita fornisce uno stato per l'operazione di compilazione. I classificatori sono veloci per eseguire il training e il classificatore può essere pronto per l'uso in un minuto o due.
Al termine dell'operazione:
- Il metodo con esito positivo
POST
restituisce un202 OK
codice di risposta che indica che il servizio ha creato la richiesta. - I documenti tradotti si trovano nel contenitore di destinazione.
- La
POST
richiesta restituisce anche intestazioni di risposta, tra cuiOperation-Location
. Il valore di questa intestazione contiene un oggettoresultId
su cui è possibile eseguire una query per ottenere lo stato dell'operazione asincrona e recuperare i risultati usando unaGET
richiesta con la stessa chiave di sottoscrizione della risorsa.
Richiesta GET di esempio
Richiesta di esempio GET
per recuperare il risultato di un classificatore incrementale di documenti
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
Risposta GET
La GET
risposta da un classificatore con training incrementale differisce dalla risposta del classificatore GET
standard. Il classificatore con training incrementale non restituisce tutti i tipi di documento supportati. Restituisce i tipi di documento aggiunti o aggiornati nel passaggio di training incrementale e nel classificatore di base esteso. Per ottenere un elenco completo dei tipi di documento, è necessario elencare il classificatore di base. L'eliminazione di un classificatore di base non influisce sull'uso di un classificatore con training incrementale.
Limiti
Il training incrementale funziona solo quando il classificatore di base e il classificatore con training incrementale vengono sottoposti a training sulla stessa versione dell'API. Di conseguenza, il classificatore sottoposto a training incrementale ha lo stesso ciclo di vita del modello del classificatore di base.
I limiti delle dimensioni del set di dati di training per il classificatore incrementale sono gli stessi di altri modelli di classificatore. Per un elenco completo dei limiti applicabili, vedere Limiti del servizio.
Passaggi successivi
- Altre informazioni sulla classificazione dei documenti
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per