Funzionalità dei componenti aggiuntivi di Document Intelligence

Importante

  • Le versioni di anteprima pubblica di Document Intelligence consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
  • Le funzionalità, gli approcci e i processi possono cambiare, prima della disponibilità generale, in base al feedback degli utenti.
  • La versione di anteprima pubblica delle librerie client di Document Intelligence per impostazione predefinita è l'API REST versione 2024-02-29-preview.
  • L'anteprima pubblica versione 2024-02-29-preview è attualmente disponibile solo nelle aree di Azure seguenti:
  • Stati Uniti orientali
  • Stati Uniti occidentali2
  • Europa occidentale

Questo contenuto si applica a:segno di spuntav4.0 (anteprima) | Versioni precedenti:segno di spunta bluv3.1 (GA)

Questo contenuto si applica a:v3.1segno di spunta (GA) | Versione più recente:segno di spunta violav4.0 (anteprima)

Nota

Le funzionalità dei componenti aggiuntivi sono disponibili all'interno di tutti i modelli, ad eccezione del modello biglietto da visita.

Document Intelligence supporta funzionalità di analisi più sofisticate e modulari. Usare le funzionalità del componente aggiuntivo per estendere i risultati per includere altre funzionalità estratte dai documenti. Alcune funzionalità del componente aggiuntivo comportano un costo aggiuntivo. Queste funzionalità facoltative possono essere abilitate e disabilitate a seconda dello scenario di estrazione dei documenti. Per abilitare una funzionalità, aggiungere il nome della funzionalità associato alla proprietà della features stringa di query. È possibile abilitare più funzionalità del componente aggiuntivo in una richiesta fornendo un elenco delimitato da virgole di funzionalità. Per e versioni successive sono disponibili 2023-07-31 (GA) le funzionalità aggiuntive seguenti.

Nota

Non tutte le funzionalità dei componenti aggiuntivi sono supportate da tutti i modelli. Per altre informazioni, vedereEstrazione dei dati del modello.

Per le versioni successive sono disponibili2024-02-29-preview2024-02-29-preview le funzionalità aggiuntive seguenti:

Nota

L'implementazione dei campi di query nell'API 2023-10-30-preview è diversa dall'ultima versione di anteprima. La nuova implementazione è meno costosa e funziona bene con documenti strutturati.

Funzionalità del componente aggiuntivo Componente aggiuntivo/gratuito Anteprima 2024-02-29 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Estrazione delle proprietà dei tipi di carattere Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di formule Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione ad alta risoluzione Componente aggiuntivo ✔️ ✔️ n/d n/d
Estrazione di codice a barre Libero ✔️ ✔️ n/d n/d
Rilevamento lingua Libero ✔️ ✔️ n/d n/d
Coppie chiave-valore Libero ✔️ n/d n/d n/d
Campi di query Componente aggiuntivo* ✔️ n/d n/d n/d

Componente aggiuntivo* - I campi di query vengono distribuiti in modo diverso rispetto alle altre funzionalità del componente aggiuntivo. Per informazioni dettagliate, vedere i prezzi .

Estrazione ad alta risoluzione

Il compito di riconoscere testo di piccole dimensioni da documenti di grandi dimensioni, come i disegni di progettazione, è una sfida. Spesso il testo è misto con altri elementi grafici e ha tipi di carattere, dimensioni e orientamenti variabili. Inoltre, il testo può essere suddiviso in parti separate o collegate con altri simboli. Intelligence per i documenti supporta ora l'estrazione di contenuto da questi tipi di documenti con la ocr.highResolution funzionalità . È possibile ottenere una migliore qualità dell'estrazione di contenuto dai documenti A1/A2/A3 abilitando questa funzionalità del componente aggiuntivo.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Estrazione di formule

La ocr.formula funzionalità estrae tutte le formule identificate, ad esempio equazioni matematiche, nell'insieme formulas come oggetto di primo livello in content. All'interno contentdi , le formule rilevate vengono rappresentate come :formula:. Ogni voce di questa raccolta rappresenta una formula che include il tipo di formula come inline o displaye la relativa rappresentazione LaTeX insieme value alle relative polygon coordinate. Inizialmente, le formule vengono visualizzate alla fine di ogni pagina.

Nota

Il confidence punteggio è hardcoded.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Estrazione delle proprietà dei tipi di carattere

La ocr.font funzionalità estrae tutte le proprietà del tipo di carattere del testo estratto nell'insieme styles come oggetto di primo livello in content. Ogni oggetto stile specifica una singola proprietà del tipo di carattere, l'intervallo di testo a cui si applica e il punteggio di attendibilità corrispondente. La proprietà di stile esistente viene estesa con più proprietà del tipo di carattere, ad esempio similarFontFamily per il tipo di carattere del testo, fontStyle per stili come corsivo e normale, fontWeight per il grassetto o normale, color per il colore del testo e backgroundColor per il colore del riquadro di testo.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Estrazione delle proprietà del codice a barre

La ocr.barcode funzionalità estrae tutti i codici a barre identificati nella barcodes raccolta come oggetto di primo livello in content. All'interno di content, i codici a barre rilevati sono rappresentati come :barcode:. Ogni voce di questa raccolta rappresenta un codice a barre e include il tipo di codice a barre come kind e il contenuto del codice a barre incorporato, insieme value alle coordinate polygon . Inizialmente, i codici a barre vengono visualizzati alla fine di ogni pagina. è confidence hardcoded per come 1.

Tipi di codice a barre supportati

Tipo di codice a barre Esempio
QR Code Screenshot del codice a matrice.
Code 39 Screenshot del codice 39.
Code 93 Screenshot del codice 93.
Code 128 Screenshot del codice 128.
UPC (UPC-A & UPC-E) Screenshot dell'UPC.
PDF417 Screenshot di PDF417.
EAN-8 Screenshot del codice a barre con numero di articolo europeo ean-8.
EAN-13 Screenshot del codice a barre con numero di articolo europeo ean-13.
Codabar Screenshot della codabar.
Databar Screenshot della barra dei dati.
Databar Espanso Screenshot della barra dei dati espansa.
ITF Screenshot del codice a barre ITF interleaved-two-of-five.
Data Matrix Screenshot della matrice di dati.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rilevamento lingua

L'aggiunta della languagesanalyzeResult funzionalità alla richiesta consente di stimare la lingua primaria rilevata per ogni riga di testo insieme confidence a nella raccolta in languagesanalyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Coppie chiave-valore

Nelle versioni precedenti dell'API, il modello predefinito-documento ha estratto coppie chiave-valore da moduli e documenti. Con l'aggiunta della keyValuePairs funzionalità al layout predefinito, il modello di layout produce ora gli stessi risultati.

Le coppie chiave-valore sono intervalli specifici all'interno del documento che identificano un'etichetta o una chiave e la risposta o il valore associato. In un modulo strutturato, queste coppie possono essere l'etichetta e il valore immesso dall'utente per tale campo. In un documento non strutturato, potrebbe essere la data in cui è stato eseguito un contratto in base al testo di un paragrafo. Il modello di intelligenza artificiale viene sottoposto a training per estrarre chiavi e valori identificabili in base a un'ampia gamma di tipi di documento, formati e strutture.

Le chiavi possono esistere anche in isolamento quando il modello rileva che esiste una chiave, senza alcun valore associato o durante l'elaborazione di campi facoltativi. Ad esempio, un campo del secondo nome può essere lasciato vuoto in un modulo in alcune istanze. Le coppie chiave-valore sono intervalli di testo contenuti nel documento. Per i documenti in cui lo stesso valore viene descritto in modi diversi, ad esempio cliente/utente, la chiave associata è cliente o utente (in base al contesto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campi di query

I campi di query sono una funzionalità del componente aggiuntivo per estendere lo schema estratto da qualsiasi modello predefinito o definire un nome di chiave specifico quando il nome della chiave è variabile. Per usare i campi di query, impostare le funzionalità su queryFields e fornire un elenco delimitato da virgole di nomi di campo nella queryFields proprietà .

  • Document Intelligence supporta ora le estrazioni di campi di query. Con l'estrazione dei campi di query, è possibile aggiungere campi al processo di estrazione usando una richiesta di query senza la necessità di aggiungere il training.

  • Usare i campi di query quando è necessario estendere lo schema di un modello predefinito o personalizzato oppure è necessario estrarre alcuni campi con l'output del layout.

  • I campi di query sono una funzionalità di componente aggiuntivo Premium. Per ottenere risultati ottimali, definire i campi da estrarre usando i nomi dei campi case camel o Pascal per i nomi di campo con più parole.

  • I campi di query supportano un massimo di 20 campi per richiesta. Se il documento contiene un valore per il campo, vengono restituiti il campo e il valore.

  • In questa versione è disponibile una nuova implementazione della funzionalità dei campi di query con prezzi inferiori rispetto all'implementazione precedente e deve essere convalidata.

Nota

L'estrazione dei campi di query di Document Intelligence Studio è attualmente disponibile con l'API Layout e modelli predefiniti e 2024-02-29-preview2023-10-31-preview versioni successive, ad eccezione dei US tax modelli W2, 1098 e 1099s.

Estrazione di campi di query

Per l'estrazione dei campi di query, specificare i campi da estrarre e Document Intelligence analizza il documento di conseguenza. Ecco un esempio:

  • Se si elabora un contratto in Document Intelligence Studio, usare le 2024-02-29-preview versioni o 2023-10-31-preview :

    Screenshot del pulsante campi di query in Document Intelligence Studio.

  • È possibile passare un elenco di etichette di campo come Party1, Party2, PaymentTermsTermsOfUse, PaymentDate, e TermEndDate come parte della analyze document richiesta.

    Screenshot della finestra di selezione dei campi di query in Document Intelligence Studio.

  • Document Intelligence è in grado di analizzare ed estrarre i dati dei campi e restituire i valori in un output JSON strutturato.

  • Oltre ai campi della query, la risposta include testo, tabelle, segni di selezione e altri dati pertinenti.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Passaggi successivi

Esempi di SDK: Python