Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A API de Layout do Document Intelligence da IA do Azure pode transformar seus documentos em markdown avançado, preservando sua estrutura e formatação originais. Basta especificar outputContentFormat=markdown
em sua solicitação para receber conteúdo semanticamente estruturado que mantém parágrafos, títulos, tabelas e outros elementos de documento em sua hierarquia adequada.
Essa saída do Markdown captura elegantemente a organização original do documento, fornecendo conteúdo padronizado e facilmente consumível para aplicativos downstream. A estrutura semântica preservada permite fluxos de trabalho de processamento de documentos mais sofisticados sem perder o contexto e as relações entre os elementos do documento.
Elementos markdown com suporte na Análise de Layout
Os seguintes elementos markdown são incluídos nas respostas da API de Layout:
- Parágrafo
- Título
- Tabela
- Figura
- Marca de Seleção
- Fórmula
- Código de barras
- Número da Página/Cabeçalho da Página/Rodapé da Página
- PageBreak
- KeyValuePairs/Linguagem/Estilo
- Intervalos e Conteúdo
Parágrafo
Os parágrafos representam blocos coesos de texto que pertencem semanticamente. A API de Layout mantém a integridade do parágrafo:
- Preservando limites de parágrafo com linhas vazias entre parágrafos separados
- Usando quebras de linha dentro de parágrafos para manter a estrutura visual do documento original
- Manter o fluxo de texto adequado que respeita a ordem de leitura do documento original
Veja um exemplo:
This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.
This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.
Título
Os títulos organizam o conteúdo do documento em uma estrutura hierárquica para facilitar a navegação e a compreensão. A API de Layout tem os seguintes recursos:
- Usa a sintaxe padrão de Markdown para títulos com símbolos de hash de um a seis (#) correspondentes aos níveis de título.
- Mantém o espaçamento adequado com duas linhas em branco antes de cada título para melhorar a legibilidade.
Veja um exemplo:
# This is a title
## This is heading 1
### This is heading 2
#### This is heading 3
Tabela
As tabelas preservam dados estruturados complexos em um formato visualmente organizado. A API de Layout usa a sintaxe da tabela HTML para máxima fidelidade e compatibilidade:
- Implementa a marcação de tabela HTML completa (
<table>
,<tr>
,<th>
,<td>
) em vez de tabelas Markdown padrão. - Preserva a célula mesclada com atributos HTML rowspan e colspan.
- Preserva legendas de tabela com a tag
<caption>
para manter o contexto do documento. - Manipula estruturas de tabela complexas, incluindo cabeçalhos, células e rodapés
- Mantém o espaçamento adequado com duas linhas em branco antes de cada tabela para melhorar a legibilidade
- Preserva as notas de rodapé da tabela como parágrafo separado seguindo a tabela
Veja um exemplo:
<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.
Figura
A API de Layout preserva elementos de figura:
- Encapsula o conteúdo da figura em
<figure>
tags para manter a distinção semântica em relação ao texto ao redor - Preserva legendas de figura com a
<figcaption>
marca para fornecer contexto importante - Preserva notas de rodapé de figura como parágrafos separados após o contêiner de figura
Veja um exemplo:
<figure>
<figcaption>Figure 2 This is a figure</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is footnote if the figure have.
Marca de Seleção
As marcas de seleção representam elementos semelhantes a caixa de seleção em formulários e documentos. A API de Layout:
- Usa caracteres Unicode para clareza visual: ☒ (verificado) e ☐ (desmarcado)
- Filtra detecções de baixa confiança em caixas de seleção (com confiança abaixo de 0,1) para melhorar a confiabilidade
- Mantém a relação semântica entre marcas de seleção e seu texto associado
Fórmula
Fórmulas matemáticas são preservadas com sintaxe compatível com LaTeX que permite a renderização de expressões matemáticas complexas:
- As fórmulas embutidas são delimitadas por sinais de cifrão simples (
$...$
) para manter o fluxo de textos - As fórmulas de bloco usam sinais de cifrão duplo (
$$...$$
) para exibição independente - Fórmulas de várias linhas são representadas como fórmulas de bloco consecutivas, preservando relações matemáticas
- Espaçamento e formatação originais são mantidos para garantir uma representação precisa
Veja um exemplo de fórmula embutida, bloco de fórmula de linha única e bloco de fórmula de várias linhas:
The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula
$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$
$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$
Código de barras
Códigos de barras e QR são representados usando a sintaxe de imagem markdown com informações semânticas adicionadas:
- Usa a sintaxe markdown de imagem padrão com atributos descritivos
- Captura o tipo de código de barras (código QR, código de barras etc.) e seu valor codificado
- Preserva a relação semântica entre códigos de barras e conteúdo ao redor
Veja um exemplo:



Número da Página/Cabeçalho da Página/Rodapé da Página
Os elementos de metadados de página fornecem contexto sobre paginação de documento, mas não devem ser exibidos embutidos com o conteúdo principal:
- Colocado em comentários HTML para preservar as informações, mantendo-as ocultas da renderização padrão do Markdown
- Mantém informações originais da estrutura de páginas que podem ser valiosas para a reconstrução de documentos
- Permite que os aplicativos entendam a paginação de documentos sem interromper o fluxo de conteúdo
Veja um exemplo:
<!-- PageHeader="This is page header" -->
<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->
PageBreak
Para descobrir facilmente quais partes pertencem a qual base de página no conteúdo de Markdown puro, introduzimos PageBreak como o delimitador das páginas
Veja um exemplo:
<!-- PageBreak -->
KeyValuePairs/Linguagem/Estilo
Para KeyValuePairs/Linguagem/Estilo, mapeamos para o corpo JSON da Análise e não para o conteúdo Markdown.
Observação
Para obter mais informações sobre o Markdown que atualmente tem suporte para conteúdo do usuário em GitHub.com, consulteGitHub Flavored Markdown Spec.
Conclusão
Os elementos Markdown do Document Intelligence fornecem uma maneira poderosa de representar a estrutura e o conteúdo dos documentos analisados. Ao entender e utilizar corretamente esses elementos markdown, você pode aprimorar seus fluxos de trabalho de processamento de documentos e criar aplicativos de extração de conteúdo mais sofisticados.
Próximas etapas
Tente processar seus documentos com o Document Intelligence Studio.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.