Funzionalità dei componenti aggiuntivi di Document Intelligence

Importante

  • Le versioni di anteprima pubblica di Document Intelligence consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
  • Le funzionalità, gli approcci e i processi possono cambiare prima della disponibilità generale, a seconda del feedback degli utenti.
  • La versione di anteprima pubblica delle librerie client di Document Intelligence per impostazione predefinita è l'API REST versione 2024-02-29-preview.
  • L'anteprima pubblica versione 2024-02-29-preview è attualmente disponibile solo nelle aree di Azure seguenti:
  • Stati Uniti orientali
  • Stati Uniti occidentali2
  • Europa occidentale

Questo contenuto si applica a:segno di spuntav4.0 (anteprima) | Versioni precedenti:segno di spunta bluv3.1 (GA)

Questo contenuto si applica a:v3.1segno di spunta (GA) | Versione più recente:segno di spunta violav4.0 (anteprima)

Nota

Le funzionalità dei componenti aggiuntivi sono disponibili all'interno di tutti i modelli, ad eccezione del modello biglietto da visita.

Capabilities

Document Intelligence supporta funzionalità di analisi più sofisticate e modulari. Usare le funzionalità del componente aggiuntivo per estendere i risultati per includere altre funzionalità estratte dai documenti. Alcune funzionalità del componente aggiuntivo comportano un costo aggiuntivo. Queste funzionalità facoltative possono essere abilitate e disabilitate a seconda dello scenario di estrazione dei documenti. Per abilitare una funzionalità, aggiungere il nome della funzionalità associato alla proprietà della features stringa di query. È possibile abilitare più funzionalità del componente aggiuntivo in una richiesta fornendo un elenco delimitato da virgole di funzionalità. Per e versioni successive sono disponibili 2023-07-31 (GA) le funzionalità aggiuntive seguenti.

Nota

Non tutte le funzionalità dei componenti aggiuntivi sono supportate da tutti i modelli. Per altre informazioni, vedereEstrazione dei dati del modello.

Per le versioni successive sono disponibili2024-02-29-preview2024-02-29-preview le funzionalità aggiuntive seguenti:

Nota

L'implementazione dei campi di query nell'API 2023-10-30-preview è diversa dall'ultima versione di anteprima. La nuova implementazione è meno costosa e funziona bene con documenti strutturati.

Disponibilità della versione

Funzionalità del componente aggiuntivo Componente aggiuntivo/gratuito Anteprima 2024-02-29 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Estrazione delle proprietà dei tipi di carattere Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di formule Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione ad alta risoluzione Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di codice a barre Libero ✔️ ✔️ n/d n/d
Rilevamento lingua Libero ✔️ ✔️ n/d n/d
Coppie chiave-valore Libero ✔️ n/d n/d n/d
Campi di query Componente aggiuntivo* ✔️ n/d n/d n/d

✱ Componente aggiuntivo: i campi di query vengono addebitati in modo diverso rispetto alle altre funzionalità del componente aggiuntivo. Per informazioni dettagliate, vedere i prezzi.

Formati di file supportati

  • PDF

  • Immagini: JPEG/JPG, PNG, BMP, TIFF, HEIF

✱ i file di Microsoft Office non sono attualmente supportati.

Estrazione ad alta risoluzione

Il riconoscimento di testo piccolo in documenti di grandi dimensioni, ad esempio disegni di progettazione, è un'attività complessa. Spesso il testo è misto con altri elementi grafici e ha tipi di carattere, dimensioni e orientamenti variabili. Inoltre, il testo può essere suddiviso in parti separate o collegate con altri simboli. Intelligence per i documenti supporta ora l'estrazione di contenuto da questi tipi di documenti con la ocr.highResolution funzionalità . È possibile estrarre contenuto con una qualità migliore da documenti A1/A2/A3 abilitando questa funzionalità aggiuntiva.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Estrazione di formule

La funzionalità ocr.formula estrae tutte le formule identificate, ad esempio equazioni matematiche, nella raccolta formulas come oggetto di primo livello in content. All'interno di content, le formule rilevate vengono rappresentate come :formula:. Ogni voce di questa raccolta rappresenta una formula che include il tipo di formula, come inline o display, e la relativa rappresentazione LaTeX come value insieme alle coordinate polygon. Inizialmente, le formule vengono visualizzate alla fine di ogni pagina.

Nota

Il confidence punteggio è hardcoded.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Estrazione delle proprietà dei tipi di carattere

La funzionalità ocr.font estrae tutte le proprietà del tipo di carattere del testo estratto nella raccolta styles come oggetto di primo livello in content. Ogni oggetto stile specifica una singola proprietà del tipo di carattere, l'intervallo di testo a cui si applica e il punteggio di attendibilità corrispondente. La proprietà style esistente viene estesa con più proprietà dei tipi di carattere, ad esempio similarFontFamily per il tipo di carattere del testo, fontStyle per stili come corsivo e normale, fontWeight per il grassetto o normale, color per il colore del testo e backgroundColor per il colore del riquadro delimitatore del testo.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Estrazione delle proprietà del codice a barre

La ocr.barcode funzionalità estrae tutti i codici a barre identificati nella barcodes raccolta come oggetto di primo livello in content. All'interno di content i codici a barre rilevati vengono rappresentati come :barcode:. Ogni voce di questa raccolta rappresenta un codice a barre e include il tipo di codice a barre come kind e il contenuto di codice a barre incorporato come value insieme alle coordinate polygon. Inizialmente, i codici a barre vengono visualizzati alla fine di ogni pagina. è confidence hardcoded per come 1.

Tipi di codice a barre supportati

Tipo di codice a barre Esempio
QR Code Screenshot del codice a matrice.
Code 39 Screenshot del codice 39.
Code 93 Screenshot del codice 93.
Code 128 Screenshot del codice 128.
UPC (UPC-A & UPC-E) Screenshot dell'UPC.
PDF417 Screenshot di PDF417.
EAN-8 Screenshot del codice a barre con numero di articolo europeo ean-8.
EAN-13 Screenshot del codice a barre con numero di articolo europeo ean-13.
Codabar Screenshot della codabar.
Databar Screenshot della barra dei dati.
Databar Espanso Screenshot della barra dei dati espansa.
ITF Screenshot del codice a barre ITF interleaved-two-of-five.
Data Matrix Screenshot della matrice di dati.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rilevamento lingua

L'aggiunta della languagesanalyzeResult funzionalità alla richiesta consente di stimare la lingua primaria rilevata per ogni riga di testo insieme confidence a nella raccolta in languagesanalyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Coppie chiave-valore

Nelle versioni precedenti dell'API, il modello predefinito-documento ha estratto coppie chiave-valore da moduli e documenti. Con l'aggiunta della keyValuePairs funzionalità al layout predefinito, il modello di layout produce ora gli stessi risultati.

Le coppie chiave-valore sono intervalli specifici all'interno del documento che identificano un'etichetta o una chiave e la risposta o il valore associato. In un modulo strutturato, queste coppie possono essere l'etichetta e il valore immessi dall'utente per tale campo. In un documento non strutturato, possono essere la data di esecuzione di un contratto o possono essere basate sul testo di un paragrafo. Il modello di intelligenza artificiale viene sottoposto a training per estrarre chiavi e valori identificabili in base a un'ampia gamma di tipi, formati e strutture di documenti.

Le chiavi possono esistere anche in isolamento quando il modello rileva che esiste una chiave senza alcun valore associato o quando vengono elaborati campi facoltativi. Ad esempio, un campo del secondo nome può essere lasciato vuoto in un modulo in alcune istanze. Le coppie chiave-valore sono intervalli di testo contenuti nel documento. Per i documenti in cui lo stesso valore viene descritto in modi diversi, ad esempio cliente/utente, la chiave associata è cliente o utente (in base al contesto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campi di query

I campi di query sono una funzionalità del componente aggiuntivo per estendere lo schema estratto da qualsiasi modello predefinito o definire un nome di chiave specifico quando il nome della chiave è variabile. Per usare i campi di query, impostare le funzionalità su queryFields e fornire un elenco delimitato da virgole di nomi di campo nella queryFields proprietà .

  • Document Intelligence supporta ora le estrazioni di campi di query. Con l'estrazione dei campi di query, è possibile aggiungere campi al processo di estrazione usando una richiesta di query senza la necessità di aggiungere training.

  • Usare i campi di query quando è necessario estendere lo schema di un modello predefinito o personalizzato oppure è necessario estrarre alcuni campi con l'output del layout.

  • I campi di query sono una funzionalità di componente aggiuntivo Premium. Per ottenere risultati ottimali, definire i campi da estrarre usando i nomi dei campi case camel o Pascal per i nomi di campo con più parole.

  • I campi di query supportano un massimo di 20 campi per richiesta. Se il documento contiene un valore per il campo, vengono restituiti il campo e il valore.

  • In questa versione è disponibile una nuova implementazione della funzionalità dei campi di query con prezzi inferiori rispetto all'implementazione precedente e deve essere convalidata.

Nota

L'estrazione dei campi di query di Document Intelligence Studio è attualmente disponibile con l'API Layout e modelli predefiniti e 2024-02-29-preview2023-10-31-preview versioni successive, ad eccezione dei US tax modelli W2, 1098 e 1099s.

Estrazione di campi di query

Per l'estrazione dei campi di query, specificare i campi da estrarre e Document Intelligence analizza il documento di conseguenza. Ecco un esempio:

  • Se si elabora un contratto in Document Intelligence Studio, usare le 2024-02-29-preview versioni o 2023-10-31-preview :

    Screenshot del pulsante campi di query in Document Intelligence Studio.

  • È possibile passare un elenco di etichette di campo come Party1, Party2, PaymentTermsTermsOfUse, PaymentDate, e TermEndDate come parte della analyze document richiesta.

    Screenshot della finestra di selezione dei campi di query in Document Intelligence Studio.

  • Document Intelligence è in grado di analizzare ed estrarre i dati dei campi e restituire i valori in un output JSON strutturato.

  • Oltre ai campi della query, la risposta include testo, tabelle, segni di selezione e altri dati pertinenti.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Passaggi successivi

Esempi di SDK: Python