Modello neurale personalizzato di Document Intelligence

Articolo
05/30/2024

Importante

Le versioni di anteprima pubblica di Document Intelligence consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
La versione di anteprima pubblica delle librerie client di Document Intelligence per impostazione predefinita è l'API REST versione 2024-02-29-preview.
L'anteprima pubblica versione 2024-02-29-preview è attualmente disponibile solo nelle aree di Azure seguenti:
Stati Uniti orientali
Stati Uniti occidentali2
Europa occidentale

Questo contenuto si applica a:v4.0 (anteprima) | Versioni precedenti:v3.1 (GA)v3.0 (GA)

Questo contenuto si applica a:v3.1 (GA) | Versione più recente:v4.0 (anteprima) | Versioni precedenti:v3.0

Questo contenuto si applica a:v3.0 (GA) | Versioni più recenti:v4.0 (anteprima)v3.1

I modelli di documento neurali personalizzati, o modelli neurali, sono un tipo di modello di Deep Learning che combina le funzionalità di layout e lingua per estrarre in modo accurato i campi etichettati dai documenti. Il modello neurale personalizzato di base viene sottoposto a training su vari tipi di documento che lo rendono adatto per l'estrazione di campi da documenti strutturati, semistrutturati e non strutturati. I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive La tabella seguente elenca i tipi di documento comuni per ogni categoria:

Documenti	Esempi
dati strutturati	sondaggi, questionari
dati semistrutturati	fatture, ordini d'acquisto
Non strutturato	contratti, lettere

I modelli neurali personalizzati condividono lo stesso formato di etichettatura e la stessa strategia dei modelli personalizzati. Attualmente i modelli neurali personalizzati supportano solo un sottoinsieme dei tipi di campo supportati dai modelli personalizzati.

Funzionalità dei modelli

Importante

A partire dalla versione 2024-02-29-preview api, i modelli neurali personalizzati aggiungono il supporto per i campi sovrapposti e l'attendibilità delle celle delle tabelle.

I modelli neurali personalizzati supportano attualmente solo coppie chiave-valore e segni di selezione e campi strutturati (tabelle), mentre le versioni future includono il supporto per le firme.

Campi del modulo	Opzioni di selezione	Campi tabulari	Firma	Paese	Campi sovrapposti
Supportata	Supportato	Supportata	Non supportato	Supportato ¹	Supportato ²

¹ Le etichette di area nei modelli neurali personalizzati usano i risultati dell'API Layout per l'area specificata. Questa funzionalità è diversa dai modelli in cui, se non è presente alcun valore, il testo viene generato in fase di training. ² I campi sovrapposti sono supportati a partire dalla versione 2024-02-29-previewdell'API REST. I campi sovrapposti presentano alcuni limiti. Per altre informazioni, vedereCampi sovrapposti.

Modalità compilazione

L'operazione di compilazione del modello personalizzato supporta modelli e modelli personalizzati neurali. Le versioni precedenti dell'API REST e delle librerie client supportano solo una singola modalità di compilazione ora nota come modalità modello .

I modelli neurali supportano documenti con le stesse informazioni, ma con strutture di pagina diverse. Esempi di questi documenti includono Stati Uniti moduli W2, che condividono le stesse informazioni, ma possono variare in termini di aspetto tra le aziende. Per altre informazioni, vedere Modalità di compilazione di modelli personalizzati.

Lingue e impostazioni locali supportate

Per un elenco completo delle lingue supportate, vedere la pagina Supporto linguistico : modelli personalizzati.

Campi sovrapposti

Con il rilascio delle versioni API 2024-02-29-preview e versioni successive, i modelli neurali personalizzati supporteranno i campi sovrapposti:

Per usare i campi sovrapposti, il set di dati deve contenere almeno un campione con la sovrapposizione prevista. Per etichettare una sovrapposizione, usare l'etichettatura dell'area per designare ogni intervallo di contenuto (con sovrapposizione) per ogni campo. L'etichettatura di una sovrapposizione con la selezione dei campi (evidenziando un valore) avrà esito negativo nello studio perché l'etichettatura dell'area è l'unico strumento di etichettatura supportato per indicare sovrapposizioni di campi. Il supporto per la sovrapposizione include:

Sovrapposizione completa. Lo stesso set di token viene etichettato per due campi diversi.
Sovrapposizione parziale. Alcuni token appartengono a entrambi i campi, ma esistono token che fanno solo parte di un campo o dell'altro.

I campi sovrapposti presentano alcuni limiti:

Qualsiasi token o parola può essere etichettato solo come due campi.
i campi sovrapposti in una tabella non possono estendersi su righe di tabella.
I campi sovrapposti possono essere riconosciuti solo se almeno un esempio nel set di dati contiene etichette sovrapposte per tali campi.

Per usare campi sovrapposti, etichettare il set di dati con le sovrapposizioni ed eseguire il training del modello con la versione 2024-02-29-preview dell'API o versioni successive.

I campi tabulari aggiungono attendibilità tabella, riga e cella

Con il rilascio delle versioni 2022-06-30-preview e successive dell'API, nei modelli neurali personalizzati verrà aggiunto il supporto per campi tabulari (tabelle):

I modelli sottoposti a training con l'API versione 2022-08-31 o successiva accetteranno etichette di campi tabulari.
I documenti analizzati con i modelli neurali personalizzati usando l'API versione 2022-06-30-preview o successiva produrranno campi tabulari aggregati tra le tabelle.
I risultati sono disponibili nella matrice documents dell'oggetto analyzeResult restituita dopo un'operazione di analisi.

I campi tabulari supportano tabelle tra pagine per impostazione predefinita:

Per etichettare una tabella che si estende su più pagine, etichettare ogni riga tra le diverse pagine di una singola tabella.
Come procedura consigliata, assicurarsi che il set di dati contenga alcuni esempi delle varianti previste. Ad esempio, includi esempi in cui l'intera tabella si trova su una singola pagina e in cui le tabelle si estendono su due o più pagine.

I campi tabulari sono utili anche quando si estraggono informazioni ripetute all'interno di un documento non riconosciuto come tabella. Ad esempio, una sezione ripetuta di esperienze lavorative in un curriculum può essere etichettata ed estratta come campo tabulare.

I campi tabulari forniscono attendibilità tra tabelle, righe e celle a partire dall'API2024-02-29-preview:

Le tabelle fisse o dinamiche aggiungono il supporto della confidenza per gli elementi seguenti:
- Attendibilità delle tabelle, misura dell'accuratezza dell'intera tabella.
- Attendibilità delle righe, misura di riconoscimento di una singola riga.
- Confidenza delle celle, misura di riconoscimento di una singola cella.
L'approccio consigliato consiste nell'esaminare l'accuratezza in modo dall'alto verso il basso a partire prima dalla tabella, seguita dalla riga e quindi dalla cella.

Per altre informazioni su tabella, riga e attendibilità delle celle, vedere i punteggi di attendibilità e accuratezza.

Aree geografiche supportate

A partire dal 18 ottobre 2022, il training del modello neurale personalizzato di Document Intelligence sarà disponibile solo nelle aree di Azure seguenti fino a un ulteriore avviso:

Australia orientale
Brasile meridionale
Canada centrale
India centrale
Stati Uniti centrali
Asia orientale
Stati Uniti orientali
Stati Uniti Orientali 2
Francia centrale
Giappone orientale
Stati Uniti centro-meridionali
Asia sud-orientale
Regno Unito meridionale
Europa occidentale
Stati Uniti occidentali 2
US Gov Arizona
US Gov Virginia

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

Un modello sottoposto a training in una delle aree selezionate elencate può essere copiato in qualsiasi altra area e usato di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Requisiti di input

Per risultati ottimali, fornire una foto chiara o una scansione di alta qualità per ogni documento.

Formati di file supportati:

Modello	PDF	Immagine: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) e HTML
Lettura	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview o versione successiva)
Documento generale	✔	✔
Predefinito	✔	✔
Neurale personalizzato	✔	✔

✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.

Per PDF e TIFF, è possibile elaborare fino a 2.000 pagine (con una sottoscrizione di livello gratuito, vengono elaborate solo le prime due pagine).
Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine 1024 x 768 pixel. Questa dimensione corrisponde a circa 8-point text a 150 punti per pollice.
Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello personalizzato e 50.000 per il modello neurale personalizzato.
Per il training di modelli di estrazione personalizzati, le dimensioni totali dei dati di training sono di 50 MB per il modello e 1G MB per il modello neurale.
Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1GB con un massimo di 10.000 pagine.

Procedure consigliate

I modelli neurali personalizzati differiscono dai modelli personalizzati in diversi modi. Il modello personalizzato si basa su un modello visivo coerente per estrarre i dati etichettati. I modelli neurali personalizzati supportano documenti strutturati, semistrutturati e non strutturati per estrarre i campi. Per scegliere tra i due tipi di modello, iniziare con un modello neurale e testarlo per determinare se supporta le proprie esigenze funzionali.

Gestione delle varianti

I modelli neurali personalizzati possono generalizzare in formati diversi di un singolo tipo di documento. Come procedura consigliata, creare un singolo modello per tutte le varianti di un tipo di documento. Aggiungere almeno cinque esempi etichettati per ognuna delle diverse varianti al set di dati di training.

Denominazione dei campi

Quando si etichettano i dati, l'etichettatura del campo pertinente per il valore migliora l'accuratezza delle coppie chiave-valore estratte. Ad esempio, per un valore di campo contenente l'ID fornitore, prendere in considerazione la denominazione del campo supplier_id. I nomi dei campi devono essere definiti nella lingua del documento.

Etichettatura di valori contigui

I token di valore/parole di un campo devono essere:

In una sequenza consecutiva in ordine di lettura naturale, senza interleaving con altri campi
In un'area che non copre altri campi

Dati rappresentativi

I valori nei casi di training devono essere diversi e rappresentativi. Ad esempio, se un campo è denominato date, i valori per questo campo devono essere una data. Il valore sintetico come una stringa casuale può influire sulle prestazioni del modello.

Limitazioni correnti

Il modello neurale personalizzato non riconosce i valori suddivisi tra i limiti della pagina.
I tipi di campo neurali non supportati personalizzati vengono ignorati se un set di dati etichettato per i modelli di modello personalizzati viene usato per eseguire il training di un modello neurale personalizzato.
I modelli neurali personalizzati sono limitati a 20 operazioni di compilazione al mese. Aprire una richiesta di supporto se è necessario aumentare il limite. Per altre informazioni, vedere Quote e limiti del servizio Document Intelligence.

Training a model

I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive.

Tipo documento	REST API	SDK	Etichettare e testare i modelli
Documento personalizzato	Document Intelligence 3.1	Document Intelligence SDK	Document Intelligence Studio

L'operazione di compilazione per eseguire il training del modello supporta una nuova proprietà buildMode. Per eseguire il training di un modello neurale personalizzato, impostare buildMode su neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Passaggi successivi

Informazioni su come creare e comporre modelli personalizzati:

Creare un modello personalizzatoComporre modelli personalizzati

Condividi tramite

Modello neurale personalizzato di Document Intelligence

Funzionalità dei modelli

Modalità compilazione

Lingue e impostazioni locali supportate

Campi sovrapposti

I campi tabulari aggiungono attendibilità tabella, riga e cella

Aree geografiche supportate

Requisiti di input

Procedure consigliate

Gestione delle varianti

Denominazione dei campi

Etichettatura di valori contigui

Dati rappresentativi

Limitazioni correnti

Training a model

Passaggi successivi

Risorse aggiuntive