Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Azure AI Content Understanding converte documentos não estruturados em GitHub Flavored Markdown, mantendo o conteúdo e o layout para um uso subsequente preciso. Este documento descreve como cada elemento de conteúdo e layout é representado na marcação.
Palavras e marcas de seleção
As palavras reconhecidas e as marcas de seleção detetadas são representadas na marcação como texto simples. As marcas de seleção são codificadas usando os caracteres ☒
Unicode (selecionado) e ☐
(não selecionado). O conteúdo pode ser escapado para prevenir ambiguidade com a sintaxe de formatação de markdown.
Códigos de barras
Os códigos de barras são representados como imagens de marcação com texto alternativo e título: 
.
Tipo de conteúdo | Padrão de Markdown | Exemplo |
---|---|---|
Código de barras |  |
 |
Fórmulas
As fórmulas matemáticas são codificadas usando LaTeX em Markdown:
- As fórmulas inline são encerradas em sinais de dólar únicos (
$...$
) para manter o fluxo de texto. - As fórmulas de exibição usam cifrões duplos (
$$...$$
) para exibição isolada. - As fórmulas de várias linhas são representadas como fórmulas de exibição consecutivas sem intervirem linhas vazias, preservando as relações matemáticas.
Tipo de fórmula | Markdown (linguagem de marcação) | Visualização |
---|---|---|
Em linha | $\sqrt { -1 } $ is $i$ |
$\sqrt { -1 } $ é $i$ |
Ecrã | $$a^2 + b^2 = c^2$$ |
$a^2 + b^2 = c^2$ |
Multi-linha | $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$ |
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$ |
Imagens
As imagens detetadas, incluindo figuras e gráficos, são atualmente representadas usando elementos HTML <figure>
em markdown que quebram o texto detetado na imagem. Qualquer legenda é representada através de um <figcaption>
elemento . Todas as notas de rodapé associadas aparecem como texto imediatamente após a figura.
<figure>
<figcaption>Figure 2: Example</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is a footnote.
Linhas e parágrafo
Os parágrafos são representados em markdown como um bloco de texto separado por linhas em branco. Quando as linhas estão disponíveis, cada linha do documento é mapeada para uma linha separada no Markdown.
Secções
Os parágrafos com título ou função de título de seção são convertidos em cabeçalhos Markdown. O título, se existir, é atribuído o nível de cabeçalho 1. Os níveis de título de todas as outras seções são atribuídos para preservar a estrutura hierárquica detetada.
Tabelas
Atualmente, as tabelas são representadas em markdown usando marcação de tabela HTML (<table>
, <tr>
, <th>
, <td>
) para permitir o suporte a células mescladas através dos atributos rowspan
e colspan
e cabeçalhos avançados via <th>
. Qualquer legenda é representada através de um <caption>
elemento. Todas as notas de rodapé associadas aparecem como texto imediatamente após a tabela.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
Metadados da página
O Markdown não codifica nativamente metadados de página, como números de página, cabeçalhos, rodapés e quebras. Como essas informações podem ser úteis para aplicativos downstream, codificamos metadados como comentários HTML.
Metadados | Markdown (linguagem de marcação) |
---|---|
Número da página | <!-- PageNumber="1" --> |
Cabeçalho de página | <!-- PageHeader="Header" --> |
Rodapé da página | <!-- PageNumber="Footer" --> |
Quebra de página | <!-- PageBreak --> |
Conclusão
Os elementos Markdown do Content Understanding fornecem uma maneira poderosa de representar a estrutura e o conteúdo dos documentos analisados. Ao entender e utilizar adequadamente esses elementos Markdown, você pode aprimorar seus fluxos de trabalho de processamento de documentos e criar aplicativos de extração de conteúdo mais sofisticados.
Próximos passos
- Tente processar o conteúdo do documento usando o Entendimento de Conteúdo no Azure AI Foundry.
- Aprenda a analisar modelos de analisador de conteúdo de documentos.
- Exemplos de código de revisão: pesquisa visual de documentos.
- Exemplo de código de revisão: modelos de analisador.