Condividi tramite


Informazioni sul formato di output markdown dell'API Layout di Intelligence Documentale

L'API Layout di Document Intelligence per intelligenza artificiale di Azure può trasformare i documenti in un markdown avanzato, mantenendo la struttura e la formattazione originali. È sufficiente specificare outputContentFormat=markdown nella richiesta di ricevere contenuto strutturato semanticamente che gestisce paragrafi, intestazioni, tabelle e altri elementi del documento nella gerarchia corretta.

Questo output markdown acquisisce in modo elegante l'organizzazione originale del documento fornendo contenuto standardizzato e facilmente utilizzabile per le applicazioni downstream. La struttura semantica mantenuta consente flussi di lavoro di elaborazione documenti più sofisticati senza perdere il contesto e le relazioni tra gli elementi del documento.

Elementi Markdown supportati nell'analisi del layout

Gli elementi Markdown seguenti sono inclusi nelle risposte dell'API Layout:

  • Paragrafo
  • Intestazione
  • Tabella
  • Figura
  • Segno di selezione
  • Formula
  • Codice a barre
  • NumeroPagina/IntestazionePagina/PièDiPagina
  • Interruzione di pagina
  • CoppieChiaveValore/Lingua/Stile
  • Intervalli e Contenuto

Paragrafo

I paragrafi rappresentano blocchi coesi di testo che appartengono semanticamente. L'API Layout mantiene l'integrità dei paragrafi in base a:

  • Mantenimento dei limiti di paragrafo con righe vuote tra paragrafi separati
  • Utilizzo di interruzioni di riga all'interno di paragrafi per mantenere la struttura visiva del documento originale
  • Gestione del flusso di testo corretto che rispetta l'ordine di lettura del documento originale

Ecco un esempio:

This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.

This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.

Intestazione

Le intestazioni organizzano il contenuto del documento in una struttura gerarchica per semplificare la navigazione e la comprensione. L'API Layout offre le funzionalità seguenti:

  • Usa la sintassi standard dell'intestazione Markdown con simboli hash 1-6 (#) corrispondenti ai livelli di intestazione.
  • Mantiene la corretta spaziatura attraverso due righe vuote anteposte a ogni intestazione, per migliorare la leggibilità.

Ecco un esempio:

# This is a title

## This is heading 1

### This is heading 2

#### This is heading 3

Tabella

Le tabelle mantengono dati strutturati complessi in un formato organizzato visivamente. L'API Layout usa la sintassi della tabella HTML per garantire la massima fedeltà e compatibilità:

  • Implementa il markup di tabella HTML completo (<table>, <tr>, <th>, <td>) anziché le tabelle Markdown standard
  • Mantiene la cella unita con attributi html rowspan e colspan.
  • Mantiene le didascalie delle tabelle con il tag <caption> per mantenere il contesto del documento.
  • Gestisce strutture di tabelle complesse, incluse intestazioni, celle e piè di pagina
  • Mantiene una spaziatura corretta con due righe vuote prima di ogni tabella per migliorare la leggibilità
  • Mantiene le note a piè di pagina della tabella come paragrafo separato dopo la tabella

Ecco un esempio:

<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.

Figura

L'API Layout mantiene gli elementi della figura:

  • Incapsula il contenuto della figura nei <figure> tag per mantenere la distinzione semantica rispetto al testo circostante
  • Mantiene le didascalie delle figure con il <figcaption> tag per fornire contesto importante
  • Mantiene le note a piè di pagina della figura come paragrafi separati dopo il contenitore della figura

Ecco un esempio:

<figure>
<figcaption>Figure 2 This is a figure</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is footnote if the figure have.

Segno di selezione

I segni di selezione rappresentano elementi simili a caselle di controllo nei moduli e nei documenti. L'API Layout

  • Usa caratteri Unicode per chiarezza visiva: ☒ (selezionata) e ☐ (deselezionata)
  • Filtra i rilevamenti delle caselle di controllo con attendibilità bassa (inferiore a 0,1) per migliorare l'affidabilità
  • Mantiene la relazione semantica tra i segni di selezione e il testo associato

Formula

Le formule matematiche vengono mantenute con la sintassi compatibile con LaTeX che consente il rendering di espressioni matematiche complesse:

  • Le formule inline sono racchiuse in segni di dollaro singolo ($...$) per mantenere il flusso di testo
  • Le formule di blocco usano segni di dollaro doppio ($$...$$) per la visualizzazione autonoma
  • Le formule a più righe sono rappresentate come formule di blocco consecutive, mantenendo le relazioni matematiche
  • La spaziatura e la formattazione originali vengono mantenute per garantire una rappresentazione accurata

Ecco un esempio di formula inline, blocco di formule a riga singola e blocco di formule a più righe:

The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula

$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$

$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$

Codice a barre

I codici a barre e i codici a matrice sono rappresentati usando la sintassi dell'immagine Markdown con informazioni semantiche aggiunte:

  • Usa la sintassi markdown dell'immagine standard con attributi descrittivi
  • Acquisisce sia il tipo di codice a barre (QR code, codice a barre, ecc.) sia il valore codificato.
  • Mantiene la relazione semantica tra codici a barre e contenuto circostante

Ecco un esempio:

![QRCode](barcodes/1.1 "https://www.microsoft.com")

![UPCA](barcodes/1.2 "012345678905")
 
![barcode type](barcodes/pagenumber.barcodenumber "barcode value/content")

NumeroPagina/IntestazionePagina/PièDiPagina

Gli elementi dei metadati della pagina forniscono contesto sulla paginazione del documento, ma non devono essere visualizzati inline con il contenuto principale:

  • Racchiuso nei commenti HTML per mantenere le informazioni nascoste durante il rendering standard di Markdown.
  • Mantiene informazioni sulla struttura di pagine originali che potrebbero essere utili per la ricostruzione dei documenti
  • Consente alle applicazioni di comprendere la paginazione del documento senza interrompere il flusso di contenuto

Ecco un esempio:

<!-- PageHeader="This is page header" -->

<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->


Interruzione di pagina

Per capire facilmente quali parti appartengono alla pagina in base al contenuto markdown puro, abbiamo introdotto PageBreak come delimitatore delle pagine

Ecco un esempio:

<!-- PageBreak -->

CoppieChiaveValore/Lingua/Stile

Per KeyValuePairs/Language/Style, li mappiamo al corpo JSON di Analytics e non nel contenuto Markdown.

Annotazioni

Per altre informazioni su Markdown attualmente supportato per il contenuto utente in GitHub.com, vedereGitHub Flavored Markdown Spec.

Conclusione

Gli elementi Markdown di Document Intelligence offrono un modo efficace per rappresentare la struttura e il contenuto dei documenti analizzati. Comprendendo e usando correttamente questi elementi Markdown, è possibile migliorare i flussi di lavoro di elaborazione dei documenti e creare applicazioni di estrazione di contenuto più sofisticate.

Passaggi successivi