Partilhar via


Análise de documentos: representação de Markdown

O Azure AI Content Understanding converte documentos não estruturados em GitHub Flavored Markdown, mantendo o conteúdo e o layout para um uso subsequente preciso. Este documento descreve como cada elemento de conteúdo e layout é representado na marcação.

Palavras e marcas de seleção

As palavras reconhecidas e as marcas de seleção detetadas são representadas na marcação como texto simples. As marcas de seleção são codificadas usando os caracteres Unicode (selecionado) e (não selecionado). O conteúdo pode ser escapado para prevenir ambiguidade com a sintaxe de formatação de markdown.

Códigos de barras

Os códigos de barras são representados como imagens de marcação com texto alternativo e título: ![alt text](url "title").

Tipo de conteúdo Padrão de Markdown Exemplo
Código de barras ![{barcode.kind}]({barcode.path} "{barcode.value}") ![QRCode](barcodes/1.2 "https://www.microsoft.com")

Fórmulas

As fórmulas matemáticas são codificadas usando LaTeX em Markdown:

  • As fórmulas inline são encerradas em sinais de dólar únicos ($...$) para manter o fluxo de texto.
  • As fórmulas de exibição usam cifrões duplos ($$...$$) para exibição isolada.
  • As fórmulas de várias linhas são representadas como fórmulas de exibição consecutivas sem intervirem linhas vazias, preservando as relações matemáticas.
Tipo de fórmula Markdown (linguagem de marcação) Visualização
Em linha $\sqrt { -1 } $ is $i$ $\sqrt { -1 } $ é $i$
Ecrã $$a^2 + b^2 = c^2$$ $a^2 + b^2 = c^2$
Multi-linha $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$
$$= x ( x + 4 ) + 4$$
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$

Imagens

As imagens detetadas, incluindo figuras e gráficos, são atualmente representadas usando elementos HTML <figure> em markdown que quebram o texto detetado na imagem. Qualquer legenda é representada através de um <figcaption> elemento . Todas as notas de rodapé associadas aparecem como texto imediatamente após a figura.

<figure>
<figcaption>Figure 2: Example</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is a footnote.

Linhas e parágrafo

Os parágrafos são representados em markdown como um bloco de texto separado por linhas em branco. Quando as linhas estão disponíveis, cada linha do documento é mapeada para uma linha separada no Markdown.

Secções

Os parágrafos com título ou função de título de seção são convertidos em cabeçalhos Markdown. O título, se existir, é atribuído o nível de cabeçalho 1. Os níveis de título de todas as outras seções são atribuídos para preservar a estrutura hierárquica detetada.

Tabelas

Atualmente, as tabelas são representadas em markdown usando marcação de tabela HTML (<table>, <tr>, <th>, <td>) para permitir o suporte a células mescladas através dos atributos rowspan e colspan e cabeçalhos avançados via <th>. Qualquer legenda é representada através de um <caption> elemento. Todas as notas de rodapé associadas aparecem como texto imediatamente após a tabela.

<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.

Metadados da página

O Markdown não codifica nativamente metadados de página, como números de página, cabeçalhos, rodapés e quebras. Como essas informações podem ser úteis para aplicativos downstream, codificamos metadados como comentários HTML.

Metadados Markdown (linguagem de marcação)
Número da página <!-- PageNumber="1" -->
Cabeçalho de página <!-- PageHeader="Header" -->
Rodapé da página <!-- PageNumber="Footer" -->
Quebra de página <!-- PageBreak -->

Conclusão

Os elementos Markdown do Content Understanding fornecem uma maneira poderosa de representar a estrutura e o conteúdo dos documentos analisados. Ao entender e utilizar adequadamente esses elementos Markdown, você pode aprimorar seus fluxos de trabalho de processamento de documentos e criar aplicativos de extração de conteúdo mais sofisticados.

Próximos passos