Modello neurale personalizzato di Document Intelligence

Importante

  • Le versioni di anteprima pubblica di Document Intelligence consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
  • Le funzionalità, gli approcci e i processi possono cambiare, prima della disponibilità generale, in base al feedback degli utenti.
  • La versione di anteprima pubblica delle librerie client di Document Intelligence per impostazione predefinita è l'API REST versione 2024-02-29-preview.
  • L'anteprima pubblica versione 2024-02-29-preview è attualmente disponibile solo nelle aree di Azure seguenti:
  • Stati Uniti orientali
  • Stati Uniti occidentali2
  • Europa occidentale

Questo contenuto si applica a:segno di spuntav4.0 (anteprima) | Versioni precedenti:segno di spunta bluv3.1 (GA)segno di spunta bluv3.0 (GA)

Questo contenuto si applica a:v3.1segno di spunta (GA) | Versione più recente:segno di spunta violav4.0 (anteprima) | Versioni precedenti:segno di spunta bluv3.0

Questo contenuto si applica a:segno di spuntav3.0 (GA) | Versioni più recenti:segno di spunta violav4.0 (anteprima)segno di spunta violav3.1 (anteprima)

I modelli di documento neurale personalizzati o i modelli neurali sono un tipo di modello appreso avanzato che combina le funzionalità di layout e linguaggio per estrarre in modo accurato i campi etichettati dai documenti. Il modello neurale personalizzato di base viene sottoposto a training su vari tipi di documento che lo rendono adatto per l'estrazione di campi da documenti strutturati, semistrutturati e non strutturati. I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive La tabella seguente elenca i tipi di documento comuni per ogni categoria:

Documenti Esempi
dati strutturati sondaggi, questionari
dati semistrutturati fatture, ordini di acquisto
Non strutturato contratti, lettere

I modelli neurali personalizzati condividono lo stesso formato e strategia di etichettatura dei modelli personalizzati . Attualmente i modelli neurali personalizzati supportano solo un subset dei tipi di campo supportati dai modelli di modello personalizzati.

Funzionalità del modello

Importante

A partire dalla versione 2024-02-29-preview api, i modelli neurali personalizzati aggiungono il supporto per i campi sovrapposti e l'attendibilità delle celle delle tabelle.

I modelli neurali personalizzati supportano attualmente solo coppie chiave-valore e segni di selezione e campi strutturati (tabelle), le versioni future includono il supporto per le firme.

Campi del modulo Opzioni di selezione Campi tabulari Firma Area Campi sovrapposti
Supportata Supportato Supportata Non supportato Supportato 1 Supportato 2

1 Le etichette di area nei modelli neurali personalizzati usano i risultati dell'API Layout per l'area specificata. Questa funzionalità è diversa dai modelli di modello in cui, se non è presente alcun valore, il testo viene generato in fase di training. 2 I campi sovrapposti sono supportati a partire dalla versione 2024-02-29-previewdell'API REST. I campi sovrapposti presentano alcuni limiti. Per altre informazioni, vedereCampi sovrapposti.

Modalità di compilazione

L'operazione di compilazione del modello personalizzato supporta modelli e modelli personalizzati neurali. Le versioni precedenti dell'API REST e delle librerie client supportano solo una singola modalità di compilazione ora nota come modalità modello .

I modelli neurali supportano documenti con le stesse informazioni, ma strutture di pagina diverse. Esempi di questi documenti includono Stati Uniti moduli W2, che condividono le stesse informazioni, ma possono variare in termini di aspetto tra le aziende. Per altre informazioni, vedereModalità di compilazione del modello personalizzato.

Lingue e impostazioni locali supportate

Per un elenco completo delle lingue supportate, vedere la pagina Supporto linguistico : modelli personalizzati.

Campi sovrapposti

Con il rilascio delle versioni API 2024-02-29-preview e versioni successive, i modelli neurali personalizzati supporteranno i campi sovrapposti:

Per usare i campi sovrapposti, il set di dati deve contenere almeno un campione con la sovrapposizione prevista. Per etichettare una sovrapposizione, usare l'etichettatura dell'area per designare ogni intervallo di contenuto (con sovrapposizione) per ogni campo. L'etichettatura di una sovrapposizione con la selezione dei campi (evidenziando un valore) avrà esito negativo nello studio perché l'etichettatura dell'area è l'unico strumento di etichettatura supportato per indicare sovrapposizioni di campi. Il supporto per la sovrapposizione include:

  • Sovrapposizione completa. Lo stesso set di token viene etichettato per due campi diversi.
  • Sovrapposizione parziale. Alcuni token appartengono a entrambi i campi, ma esistono token che fanno solo parte di un campo o dell'altro.

I campi sovrapposti presentano alcuni limiti:

  • Qualsiasi token o parola può essere etichettato solo come due campi.
  • i campi sovrapposti in una tabella non possono estendersi su righe di tabella.
  • I campi sovrapposti possono essere riconosciuti solo se almeno un esempio nel set di dati contiene etichette sovrapposte per tali campi.

Per usare campi sovrapposti, etichettare il set di dati con le sovrapposizioni ed eseguire il training del modello con la versione 2024-02-29-preview dell'API o versioni successive.

I campi tabulari aggiungono attendibilità tabella, riga e cella

Con la versione di API 2022-06-30-preview e versioni successive, i modelli neurali personalizzati supporteranno i campi tabulari (tabelle):

  • I modelli sottoposti a training con l'API versione 2022-08-31 o successive accetteranno etichette di campo tabulari.
  • I documenti analizzati con modelli neurali personalizzati usando la versione API 2022-06-30-preview o successiva produrranno campi tabulari aggregati tra le tabelle.
  • I risultati sono disponibili nella analyzeResult matrice dell'oggetto documents restituito dopo un'operazione di analisi.

Per impostazione predefinita, i campi tabulari supportano tabelle tra pagine :

  • Per etichettare una tabella che si estende su più pagine, etichettare ogni riga della tabella tra le diverse pagine di una singola tabella.
  • Come procedura consigliata, assicurarsi che il set di dati contenga alcuni esempi delle variazioni previste. Ad esempio, includi esempi in cui l'intera tabella si trova su una singola pagina e in cui le tabelle si estendono su due o più pagine.

I campi tabulari sono utili anche quando si estraggono informazioni ripetute all'interno di un documento non riconosciuto come tabella. Ad esempio, una sezione ripetuta di esperienze lavorative in un curriculum può essere etichettata ed estratta come campo tabulare.

I campi tabulari forniscono attendibilità tra tabelle, righe e celle a partire dall'API2024-02-29-preview:

  • Le tabelle fisse o dinamiche aggiungono il supporto della confidenza per gli elementi seguenti:

    • Attendibilità delle tabelle, misura dell'accuratezza dell'intera tabella.
    • Attendibilità delle righe, misura di riconoscimento di una singola riga.
    • Confidenza delle celle, misura di riconoscimento di una singola cella.
  • L'approccio consigliato consiste nell'esaminare l'accuratezza in modo dall'alto verso il basso a partire prima dalla tabella, seguita dalla riga e quindi dalla cella.

Per altre informazioni su tabella, riga e attendibilità delle celle, vedere i punteggi di attendibilità e accuratezza.

Aree geografiche supportate

A partire dal 18 ottobre 2022, il training del modello neurale personalizzato di Document Intelligence sarà disponibile solo nelle aree di Azure seguenti fino a un ulteriore avviso:

  • Australia orientale
  • Brasile meridionale
  • Canada centrale
  • India centrale
  • Stati Uniti centrali
  • Asia orientale
  • Stati Uniti orientali
  • Stati Uniti Orientali 2
  • Francia centrale
  • Giappone orientale
  • Stati Uniti centro-meridionali
  • Asia sud-orientale
  • Regno Unito meridionale
  • Europa occidentale
  • Stati Uniti occidentali 2
  • US Gov Arizona
  • US Gov Virginia

Suggerimento

È possibile copiare un modello sottoposto a training in una delle aree selezionate elencate in qualsiasi altra area e usarlo di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

È possibile copiare un modello sottoposto a training in una delle aree selezionate elencate in qualsiasi altra area e usarlo di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Suggerimento

È possibile copiare un modello sottoposto a training in una delle aree selezionate elencate in qualsiasi altra area e usarlo di conseguenza.

Usare l'API REST o Document Intelligence Studio per copiare un modello in un'altra area.

Requisiti di input

  • Per ottenere risultati ottimali, fornire una foto chiara o un'analisi di alta qualità per ogni documento.

  • Formati di file supportati:

    Modello PDF Immagine:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) e HTML
    Lettura
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview o versione successiva)
    Documento generale
    Predefinito
    Neurale personalizzato

    ✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.

  • Per PDF e TIFF, è possibile elaborare fino a 2.000 pagine (con una sottoscrizione di livello gratuito, vengono elaborate solo le prime due pagine).

  • Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).

  • Le dimensioni dell'immagine devono essere comprese tra 50 x 50 pixel e 10.000 px x 10.000 pixel.

  • Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.

  • L'altezza minima del testo da estrarre è di 12 pixel per un'immagine da 1024 x 768 pixel. Questa dimensione corrisponde a circa 8-point text a 150 punti per pollice.

  • Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello di modello personalizzato e 50.000 per il modello neurale personalizzato.

  • Per il training del modello di estrazione personalizzato, le dimensioni totali dei dati di training sono di 50 MB per il modello di modello e 1G-MB per il modello neurale.

  • Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1GB pari a un massimo di 10.000 pagine.

Procedure consigliate

I modelli neurali personalizzati differiscono dai modelli di modello personalizzati in diversi modi. Il modello o il modello personalizzato si basa su un modello visivo coerente per estrarre i dati etichettati. I modelli neurali personalizzati supportano documenti strutturati, semistrutturati e non strutturati per estrarre i campi. Quando si sceglie tra i due tipi di modello, iniziare con un modello neurale e testare per determinare se supporta le esigenze funzionali.

Gestione delle variazioni

I modelli neurali personalizzati possono generalizzare in formati diversi di un singolo tipo di documento. Come procedura consigliata, creare un singolo modello per tutte le varianti di un tipo di documento. Aggiungere almeno cinque esempi etichettati per ognuna delle diverse varianti al set di dati di training.

Denominazione dei campi

Quando si etichettano i dati, l'etichettatura del campo pertinente al valore migliora l'accuratezza delle coppie chiave-valore estratte. Ad esempio, per un valore di campo contenente l'ID fornitore, prendere in considerazione la denominazione del campo supplier_id. I nomi dei campi devono essere nella lingua del documento.

Assegnazione di etichette a valori contigui

I token di valore/parole di un campo devono essere:

  • In una sequenza consecutiva in ordine di lettura naturale, senza interleaving con altri campi
  • In un'area che non copre altri campi

Dati rappresentativi

I valori nei casi di training devono essere diversi e rappresentativi. Ad esempio, se un campo è denominato date, i valori per questo campo devono essere una data. Il valore sintetico come una stringa casuale può influire sulle prestazioni del modello.

Limitazioni correnti

  • Il modello neurale personalizzato non riconosce i valori suddivisi tra i limiti della pagina.
  • I tipi di campo neurali non supportati personalizzati vengono ignorati se un set di dati etichettato per i modelli di modello personalizzati viene usato per eseguire il training di un modello neurale personalizzato.
  • I modelli neurali personalizzati sono limitati a 20 operazioni di compilazione al mese. Aprire una richiesta di supporto se è necessario aumentare il limite. Per altre informazioni, vedere Quote e limiti del servizio Document Intelligence.

Training a model

I modelli neurali personalizzati sono disponibili nei modelli v3.0 e versioni successive.

Tipo documento REST API SDK Etichettare e testare i modelli
Documento personalizzato Document Intelligence 3.1 Document Intelligence SDK Document Intelligence Studio

L'operazione di compilazione per eseguire il training del modello supporta una nuova buildMode proprietà, per eseguire il training di un modello neurale personalizzato, impostare su buildModeneural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Passaggi successivi

Informazioni su come creare e comporre modelli personalizzati: