Training del classificatore incrementale

Articolo
05/23/2024

Questo contenuto si applica a:v4.0 (anteprima)

Intelligence sui documenti di Intelligenza artificiale di Azure è un servizio di intelligenza artificiale di Azure basato sul cloud che consente di creare soluzioni intelligenti di elaborazione dei documenti. Le API di Intelligence per i documenti analizzano immagini, PDF e altri file di documento per estrarre e rilevare vari contenuti, layout, stile ed elementi semantici.

I modelli di classificazione personalizzati di Document Intelligence sono tipi di modelli di Deep Learning che combinano funzionalità di layout e linguaggio per rilevare e identificare in modo accurato i documenti elaborati all'interno delle applicazioni. I modelli di classificazione personalizzati eseguono la classificazione dei file di input una pagina alla volta per identificare i documenti all'interno e possono anche identificare più documenti o più istanze di un singolo documento all'interno di un file di input.

I classificatori di documenti di Intelligence per documenti identificano i tipi di documento noti nei file. Quando si elabora un file di input con più tipi di documento o quando non si conosce il tipo di documento, usare un classificatore per identificare il documento. I classificatori devono essere aggiornati periodicamente quando si aggiungono nuovi modelli per una classe esistente, si aggiungono nuovi tipi di documento per il riconoscimento o la confidenza del classificatore è bassa. In alcuni scenari non è più possibile avere il set originale di documenti usato per eseguire il training del classificatore. Con il training incrementale, è ora possibile aggiornare il classificatore con solo i nuovi esempi etichettati.

Nota

Il training incrementale si applica solo ai modelli di classificatore di documenti e non ai modelli personalizzati.

Il training incrementale è utile quando si vuole migliorare la qualità di un classificatore personalizzato. L'aggiunta di nuovi esempi di training per le classi esistenti migliora l'attendibilità del modello per i tipi di documento esistenti. Ad esempio, se viene aggiunta una nuova versione di un modulo esistente o se è presente un nuovo tipo di documento. Un esempio può essere quando l'applicazione inizia a supportare un nuovo tipo di documento come input valido.

Introduzione al training incrementale

Il training incrementale non introduce nuovi endpoint API.
Il payload della documentClassifiers:build richiesta viene modificato per supportare il training incrementale.
Il training incrementale comporta la creazione di un nuovo modello di classificatore con il classificatore esistente lasciato invariato.
Il nuovo classificatore include tutti gli esempi di documento e i tipi del classificatore precedente insieme agli esempi appena forniti. È necessario assicurarsi che l'applicazione sia aggiornata per usare il classificatore appena sottoposto a training.

Nota

L'operazione di copia per i classificatori non è attualmente disponibile.

Creare una richiesta di compilazione del classificatore incrementale

La richiesta di compilazione incrementale del classificatore è simile alla richiesta di compilazione del documento di classificazione, ma include la nuova baseClassifierId proprietà. baseClassifierId è impostato sul classificatore esistente che si desidera estendere. È anche necessario specificare docTypes per i diversi tipi di documento nel set di esempio. Fornendo un docType oggetto esistente in baseClassifier, gli esempi forniti nella richiesta vengono aggiunti agli esempi forniti quando è stato eseguito il training del classificatore di base. I nuovi docType valori aggiunti nel training incrementale vengono aggiunti solo al nuovo classificatore. Il processo per specificare gli esempi rimane invariato. Per altre informazioni, vedereTraining di un modello di classificatore.

Richiesta POST di esempio

Richiesta di esempio POST per compilare un classificatore incrementale di documenti

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Risposta POST

Tutte le API di Business Intelligence per i documenti sono asincrone e il polling del percorso dell'operazione restituita fornisce uno stato per l'operazione di compilazione. I classificatori sono veloci per eseguire il training e il classificatore può essere pronto per l'uso in un minuto o due.

Al termine dell'operazione:

Il metodo con esito positivo POST restituisce un 202 OK codice di risposta che indica che il servizio ha creato la richiesta.
I documenti tradotti si trovano nel contenitore di destinazione.
La POST richiesta restituisce anche intestazioni di risposta, tra cui Operation-Location. Il valore di questa intestazione contiene un oggetto resultId su cui è possibile eseguire una query per ottenere lo stato dell'operazione asincrona e recuperare i risultati usando una GET richiesta con la stessa chiave di sottoscrizione della risorsa.

Richiesta GET di esempio

Richiesta di esempio GET per recuperare il risultato di un classificatore incrementale di documenti

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Risposta GET

La GET risposta da un classificatore con training incrementale differisce dalla risposta del classificatore GET standard. Il classificatore con training incrementale non restituisce tutti i tipi di documento supportati. Restituisce i tipi di documento aggiunti o aggiornati nel passaggio di training incrementale e nel classificatore di base esteso. Per ottenere un elenco completo dei tipi di documento, è necessario elencare il classificatore di base. L'eliminazione di un classificatore di base non influisce sull'uso di un classificatore con training incrementale.

Limiti

Il training incrementale funziona solo quando il classificatore di base e il classificatore con training incrementale vengono sottoposti a training sulla stessa versione dell'API. Di conseguenza, il classificatore sottoposto a training incrementale ha lo stesso ciclo di vita del modello del classificatore di base.
I limiti delle dimensioni del set di dati di training per il classificatore incrementale sono gli stessi di altri modelli di classificatore. Per un elenco completo dei limiti applicabili, vedere Limiti del servizio.

Passaggi successivi

Altre informazioni sulla classificazione dei documenti

Condividi tramite