Modello di layout di Azure Riconoscimento modulo

Questo articolo si applica a:Riconoscimento modulo segno di spunta v3.0Riconoscimento modulo v3.0. Versione precedente:Riconoscimento modulo v2.1

Questo articolo si applica a:Riconoscimento modulo v2.1 segno di spuntaRiconoscimento modulo v2.1. Versione successiva:Riconoscimento modulo v3.0

Riconoscimento modulo modello di layout è un'API avanzata di analisi dei documenti basata su Machine Learning disponibile nel cloud Riconoscimento modulo. Consente di acquisire documenti in diversi formati e di restituire rappresentazioni di dati strutturate dei documenti. Combina una versione avanzata delle potenti funzionalità di riconoscimento ottico dei caratteri (OCR) con modelli di Deep Learning per estrarre testo, tabelle, segni di selezione e struttura del documento.

Analisi del layout del documento

L'analisi del layout della struttura del documento è il processo di analisi di un documento per estrarre le aree di interesse e le relative relazioni. L'obiettivo è estrarre testo ed elementi strutturali dalla pagina per creare modelli di comprensione semantica migliori. Esistono due tipi di ruoli che il testo gioca in un layout di documento:

  • Ruoli geometrici: testo, tabelle e segni di selezione sono esempi di ruoli geometrici.
  • Ruoli logici: titoli, intestazioni e piè di pagina sono esempi di ruoli logici.

La figura seguente mostra i componenti tipici in un'immagine di una pagina di esempio.

Illustrazione dell'esempio di layout del documento.

Modulo di esempio elaborato con Riconoscimento modulo Studio

Screenshot della pagina del giornale di esempio elaborata con Riconoscimento modulo Studio.

Opzioni di sviluppo

Gli strumenti seguenti sono supportati da Riconoscimento modulo v3.0:

Funzionalità Risorse ID modello
Modello di layout layout predefinito

Documento di esempio elaborato con Riconoscimento modulo modello di layout dello strumento di etichettatura di esempio:

Screenshot di un documento elaborato con il modello di layout.

Requisiti di input

  • Per ottenere risultati ottimali, fornire una foto chiara o un'analisi di alta qualità per ogni documento.

  • Formati di file supportati:

    Modellare PDF Immagine:
    JPEG/JPG, PNG, BMP e TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) e HTML
    Lettura versione dell'API REST
    2022/06/30-preview
    Layout
    Documento generale
    Predefinita
    Personalizzato

    ✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.

  • Per PDF e TIFF, è possibile elaborare fino a 2000 pagine (con una sottoscrizione di livello gratuito, vengono elaborate solo le prime due pagine).

  • Le dimensioni del file per l'analisi dei documenti devono essere inferiori a 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).

  • Le dimensioni dell'immagine devono essere comprese tra 50 x 50 pixel e 10.000 px x 10.000 pixel.

  • Le dimensioni PDF sono fino a 17 x 17 pollici, corrispondenti alle dimensioni di carta Legal o A3 o più piccole.

  • Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.

  • L'altezza minima del testo da estrarre è di 12 pixel per un'immagine di 1024 x 768 pixel. Questa dimensione corrisponde a circa 8 punti di testo a 150 punti per pollice (DPI).

  • Per il training del modello personalizzato, il numero massimo di pagine per i dati di training è 500 per il modello di modello personalizzato e 50.000 per il modello neurale personalizzato.

  • Per il training del modello personalizzato, le dimensioni totali dei dati di training sono di 50 MB per il modello di modello e 1G-MB per il modello neurale.

  • Formati di file supportati: JPEG, PNG, PDF e TIFF
  • Per PDF e TIFF, vengono elaborate fino a 2000 pagine. Per i sottoscrittori del livello gratuito, vengono elaborate solo le prime due pagine.
  • Le dimensioni del file devono essere inferiori a 50 MB e dimensioni di almeno 50 x 50 pixel e al massimo 10.000 x 10.000 pixel.

Provare l'estrazione del layout

Vedere in che modo i dati, inclusi testo, tabelle, intestazioni di tabella, segni di selezione e informazioni sulla struttura vengono estratti dai documenti usando Riconoscimento modulo. Sono necessarie le risorse seguenti:

  • Una sottoscrizione di Azure: è possibile crearne una gratuitamente

  • Istanza di Riconoscimento modulo nel portale di Azure. Per provare il servizio, è possibile usare il piano tariffario gratuito (F0). Dopo la distribuzione della risorsa, selezionare Vai alla risorsa per ottenere la chiave e l'endpoint.

Screenshot: chiavi e posizione dell'endpoint nel portale di Azure.

Riconoscimento modulo Studio

Nota

Riconoscimento modulo Studio è disponibile con l'API v3.0.

Modulo di esempio elaborato con Riconoscimento modulo Studio

Screenshot: layout che elabora una pagina di un giornale in Riconoscimento modulo Studio.

  1. Nella home page di Riconoscimento modulo Studio selezionare Layout

  2. È possibile analizzare il documento di esempio o selezionare il pulsante + Aggiungi per caricare il proprio esempio.

  3. Selezionare il pulsante Analizza :

    Screenshot: menu di analisi del layout.

Riconoscimento modulo strumento di etichettatura di esempio

  1. Passare allo strumento di esempio Riconoscimento modulo.

  2. Nella home page dello strumento di esempio selezionare Usa layout per ottenere testo, tabelle e segni di selezione.

    Screenshot delle impostazioni di connessione per il processo di layout Riconoscimento modulo.

  3. Nel campo Endpoint servizio riconoscimento modulo incollare l'endpoint ottenuto con la sottoscrizione Riconoscimento modulo.

  4. Nel campo chiave incollare la chiave ottenuta dalla risorsa Riconoscimento modulo.

  5. Nel campo Origine selezionare URL dal menu a discesa È possibile usare il documento di esempio:

  6. Selezionare Esegui layout. Lo strumento di etichettatura di esempio Riconoscimento modulo chiamerà l'API Analizza layout e analizzerà il documento.

    Screenshot: finestra a discesa Layout.

  7. Visualizzare i risultati: vedere il testo evidenziato estratto, i segni di selezione rilevati e le tabelle rilevate.

    Screenshot delle impostazioni di connessione per lo strumento di etichettatura di esempio Riconoscimento modulo.

Tipi di documento supportati

Modello Immagini PDF TIFF
Layout

Lingue e impostazioni locali supportate

Per un elenco completo delle lingue scritte a mano e stampate supportate, vedere Supporto per la lingua.

Estrazione dei dati

A partire dalla versione 3.0 GA, estrae paragrafi e altre informazioni sulla struttura, ad esempio titoli, intestazioni di sezione, intestazioni di pagina, piè di pagina, numero di pagina e note a piè di pagina dalla pagina del documento. Questi elementi strutturali sono esempi di ruoli logici descritti nella sezione precedente. Questa funzionalità è supportata per documenti e immagini PDF (JPG, PNG, BMP, TIFF).

Modello Text Segni di selezione Tabelle Paragrafi Ruoli logici
Layout

Ruoli logici supportati per i paragrafi: i ruoli di paragrafo vengono usati meglio con documenti non strutturati. I ruoli di paragrafo consentono di analizzare la struttura del contenuto estratto per una migliore ricerca semantica e analisi.

  • title
  • sectionHeading
  • Nota
  • pageHeader
  • pageFooter
  • Pagenumber

Estrazione dei dati

Modello Text Tabelle Opzioni di selezione
Layout

Gli strumenti seguenti sono supportati da Riconoscimento modulo v2.1:

Funzionalità Risorse
API di layout

Estrazione di modelli

Il modello di layout estrae testo, segni di selezione, tabelle, paragrafi e tipi di paragrafo (roles) dai documenti.

Estrazione paragrafo

Il modello Layout estrae tutti i blocchi identificati di testo nell'insieme paragraphs come oggetto di primo livello in analyzeResults. Ogni voce di questa raccolta rappresenta un blocco di testo e include il testo estratto comecontente le coordinate di delimitazione polygon . Le span informazioni puntano al frammento di testo all'interno della proprietà di primo livello content che contiene il testo completo del documento.

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Ruoli di paragrafo

Il nuovo rilevamento oggetti pagina basato su Machine Learning estrae ruoli logici come titoli, intestazioni di sezione, intestazioni di pagina, piè di pagina e altro ancora. Il modello layout Riconoscimento modulo assegna determinati blocchi di testo nella paragraphs raccolta con il relativo ruolo o tipo specializzato stimato dal modello. Vengono usati meglio con documenti non strutturati per comprendere il layout del contenuto estratto per un'analisi semantica più completa. Sono supportati i ruoli di paragrafo seguenti:

Ruolo stimato Descrizione
title Intestazioni principali nella pagina
sectionHeading Uno o più sottotitolo nella pagina
footnote Testo nella parte inferiore della pagina
pageHeader Testo vicino al bordo superiore della pagina
pageFooter Testo vicino al bordo inferiore della pagina
pageNumber Numero di pagina
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Estrazione di pagine

L'insieme pages è il primo oggetto visualizzato nella risposta del servizio.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": [],
        "kind": "document"
    }
]

Estrazione di righe di testo e parole

Il modello di layout del documento in Riconoscimento modulo estrae il testo dello stile stampato e scritto a mano come lines e words. Il modello restituisce coordinate di polygon delimitazione e confidence per le parole estratte. L'insieme styles include qualsiasi stile scritto a mano per le righe, se rilevate insieme agli intervalli che puntano al testo associato. Questa funzionalità si applica alle lingue scritte a mano supportate.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Estrazione di segni di selezione

Il modello Layout estrae anche i segni di selezione dai documenti. I segni di selezione estratti vengono visualizzati all'interno dell'insieme pages per ogni pagina. Includono il delimitazione polygon, confidencee la selezione state (selected/unselected). Qualsiasi testo associato se estratto viene incluso anche come indice iniziale (offset) e length che fa riferimento alla proprietà di primo livello content che contiene il testo completo del documento.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Estrarre tabelle da documenti e immagini

L'estrazione di tabelle è un requisito fondamentale per l'elaborazione di documenti contenenti grandi volumi di dati in genere formattati come tabelle. Il modello layout estrae le tabelle nella pageResults sezione dell'output JSON. Le informazioni sulle tabelle estratte includono il numero di colonne e righe, intervallo di righe e intervallo di colonne. Ogni cella con il relativo poligono di delimitazione viene restituita insieme alle informazioni che indicano se vengono riconosciute come o columnHeader meno. Il modello supporta l'estrazione di tabelle ruotate. Ogni cella della tabella contiene l'indice di riga e colonna e le coordinate del poligono di delimitazione. Per il testo della cella, il modello restituisce le span informazioni contenenti l'indice iniziale (offset). Il modello restituisce anche l'oggetto length all'interno del contenuto di primo livello che contiene il testo completo del documento.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Stile scritto a mano per le righe di testo (solo lingue latine)

La risposta include la classificazione se ogni riga di testo è di stile di grafia o meno, insieme a un punteggio di attendibilità. Questa funzionalità è supportata solo per le lingue latine. L'esempio seguente mostra un frammento JSON di esempio.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Estrae pagine selezionate da documenti

Per documenti a più pagine di grandi dimensioni, usare il parametro di query per indicare numeri di pagina o intervalli di pagine specifici per l'estrazione pages di testo.

Output dell'ordine di lettura naturale (solo latino)

È possibile specificare l'ordine in cui le righe di testo vengono restituite con il readingOrder parametro di query. Usare natural per un output dell'ordine di lettura più descrittivo, come illustrato nell'esempio seguente. Questa funzionalità è supportata solo per le lingue latine.

Screenshot dell'elaborazione dell'ordine di lettura del modello di layout.

Selezionare numeri di pagina o intervalli per l'estrazione di testo

Per documenti a più pagine di grandi dimensioni, usare il parametro di query per indicare numeri di pagina o intervalli di pagine specifici per l'estrazione pages di testo. Nell'esempio seguente viene illustrato un documento con 10 pagine, con testo estratto per entrambi i casi: tutte le pagine (1-10) e le pagine selezionate (3-6).

Screenshot dell'output delle pagine selezionate del modello di layout.

Operazione Get Analysis Layout Result

Il secondo passaggio consiste nel chiamare l'operazione Recupera risultato layout . Questa operazione accetta come input l'ID risultato creato dall'operazione Analizza layout. Restituisce una risposta JSON che contiene un campo di stato con i valori possibili seguenti.

Campo Type Valori possibili
status string notStarted: l'operazione di analisi non è stata avviata.

running: l'operazione di analisi è in corso.

failed: l'operazione di analisi non è riuscita.

succeeded: l'operazione di analisi ha avuto esito positivo.

Chiamare questa operazione in modo iterativo finché non restituisce il succeeded valore. Usare un intervallo di 3-5 secondi per evitare di superare la frequenza delle richieste al secondo (RPS).

Quando il campo di stato ha il succeeded valore, la risposta JSON includerà il layout estratto, il testo, le tabelle e i segni di selezione. I dati estratti includono righe di testo estratte e parole, caselle di delimitazione, aspetto di testo con indicazione, tabelle e segni di selezione scritti a mano con i segni di selezione selezionati/non selezionati indicati.

Classificazione scritta a mano per le righe di testo (solo latino)

La risposta include la classificazione del fatto che ogni riga di testo sia di stile di scrittura o meno, insieme a un punteggio di attendibilità. Questa funzionalità è supportata solo per le lingue latine. Nell'esempio seguente viene illustrata la classificazione scritta a mano per il testo nell'immagine.

Screenshot del processo di classificazione della scrittura del modello di layout.

Output JSON di esempio

La risposta all'operazione Get Analysis Layout Result è una rappresentazione strutturata del documento con tutte le informazioni estratte. Vedere qui per un file di documento di esempio e il relativo output di esempio di output strutturato.

L'output JSON ha due parti:

  • readResults node contiene tutti i contrassegni di testo e selezione riconosciuti. Il testo è organizzato in base alla pagina, quindi alla riga, infine in base a singole parole.
  • pageResults node contiene le tabelle e le celle estratte con i relativi rettangoli di associazione, attendibilità e un riferimento alle righe e alle parole in "readResults".

Output di esempio

Testo

L'API layout estrae testo da documenti e immagini con più angoli di testo e colori. Accetta foto di documenti, fax, stampati e/o scritti a mano (solo inglese) e modalità mista. Il testo viene estratto con informazioni fornite su righe, parole, caselle di selezione, punteggi di attendibilità e stile (scritto a mano o altro). Tutte le informazioni di testo sono incluse nella readResults sezione dell'output JSON.

Tabelle con intestazioni

L'API di layout estrae tabelle nella pageResults sezione dell'output JSON. I documenti possono essere analizzati, fotografati o digitalizzati. Le tabelle possono essere complesse con celle o colonne unite, con o senza bordi e con angoli dispari. Le informazioni sulla tabella estratte includono il numero di colonne e righe, intervallo di righe e intervallo di colonne. Ogni cella con il relativo rettangolo di selezione viene restituita insieme a informazioni che siano riconosciute come parte di un'intestazione o meno. Le celle di intestazione stimate del modello possono estendersi su più righe e non sono necessariamente le prime righe di una tabella. Funzionano anche con tabelle ruotate. Ogni cella della tabella include anche il testo completo con riferimenti alle singole parole nella readResults sezione.

Esempio di tabelle

Opzioni di selezione

L'API layout estrae anche i segni di selezione dai documenti. I segni di selezione estratti includono il rettangolo di selezione, la confidenza e lo stato selezionati/non selezionati. Le informazioni sul contrassegno di selezione vengono estratte nella readResults sezione dell'output JSON.

Guida alla migrazione

Passaggi successivi