Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Azure Content Understanding in Foundry Tools převádí nestrukturované dokumenty na GitHub Flavored Markdown a přitom udržuje obsah a rozložení pro přesné podřízené použití. Tento článek popisuje, jak je každý prvek obsahu a rozložení reprezentován v Markdownu.
Slova a značky pro výběr
Rozpoznaná slova a zjištěné značky výběru jsou reprezentovány v Markdownu jako prostý text. Značky výběru jsou kódovány pomocí znaků ☒ Unicode (vybraných) a ☐ (nezaškrtla). Obsah může být uvozován, aby se zabránilo nejednoznačnosti syntaxe formátování Markdownu.
Čárové kódy
Čárové kódy jsou reprezentovány jako obrázky Markdownu s alternativním textem a názvem: .
| Typ obsahu | Vzor Markdownu | Příklad |
|---|---|---|
| Čárový kód |  |
 |
Vzorce
Matematické vzorce jsou kódovány pomocí LaTeX v Markdownu:
- Vložené vzorce jsou uzavřeny v jednoduché dolarové znaky (
$...$) pro zachování plynulosti textu. - Pro samostatné zobrazení vzorce se používají dvojité znaky dolaru (
$$...$$). - Víceřádkové vzorce jsou reprezentovány jako vzorce po sobě jdoucích zobrazení, aniž by byly vloženy prázdné řádky. Tato struktura zachovává matematické vztahy.
| Druh vzorce | Markdown | Vizualizace |
|---|---|---|
| Na řádku | $\sqrt { -1 } $ is $i$ |
$\sqrt { -1 } $ je $i$ |
| Displej | $$a^2 + b^2 = c^2$$ |
$a^2 + b^2 = c^2$ |
| Víceřádkové | $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$$$= x ( x + 4 ) + 4$$ |
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$ |
Obrázky
Zjištěné obrázky, včetně obrázků a grafů, jsou reprezentovány pomocí standardní syntaxe obrázků Markdownu. Alternativní text obsahuje rozpoznaný text uvnitř obrázku a syntaxe se liší podle možností konfigurace.
Vzory reprezentace obrázků
| Konfigurace | Vzor Markdownu | Description |
|---|---|---|
| Basic |  |
Standardní obrázek bez popisu |
| enableFigureDescription |  |
Obsahuje vygenerovaný popis obrázku. |
| povolitPopisObrázku + povolitAnalýzuObrázku |
 následovaný grafem, tabulkou Markdownu nebo diagramem Mermaid |
Obrázek s popisem a připojenou analýzou obrázku (graf, tabulka nebo diagram) |
| Povolit analýzu obrysů pouze |
 následovaný grafem, tabulkou Markdownu nebo diagramem Mermaid |
Obrázek bez popisu a připojené analýzy obrázku (graf, tabulka nebo diagram) |
Examples
Obrázek bez povoleníFigureDescription

Obrázek s povolením popisu obrázku

Obrázek s povolením popisu obrázku a analýzy obrázku

Možnost 1: Analýza obrázku grafu
{ ...chart config... }
Možnost 2: Analýza figurek v tabulce Markdown
| Month | Value |
|-------|-------|
| Jan | 100 |
| Feb | 150 |
| Mar | 200 |
| Apr | 250 |
| May | 300 |
| Jun | 275 |
Obrázek bez povolených funkcí FigureDescription a FigureAnalysis

```mermaid
{ ...mermaid diagram... }
Analýza obrázku
Grafy a diagramy zjištěné v dokumentech jsou reprezentovány jako obsah strukturovaného obrázku se specializovanými formáty vykreslování.
Žebříčky
Grafy jsou reprezentovány v obsahu obrázku pomocí syntaxe Chart.js ve formátu JSON. V závislosti na config.chartFormat nastavení (chartJs nebo markdown) je možné grafy reprezentovat jako Chart.js bloky kódu nebo tabulky Markdownu.
formát Chart.js (chartFormat=chartJs)
{
"type": "bar",
"data": {
"labels": ["Jan", "Feb", "Mar", "Apr", "May", "Jun"],
"datasets": [{
"label": "Values",
"data": [100, 150, 200, 250, 300, 275],
"backgroundColor": "rgba(54, 162, 235, 0.2)",
"borderColor": "rgba(54, 162, 235, 1)",
"borderWidth": 1
}]
},
"options": {
"scales": {
"y": {
"beginAtZero": true
}
}
}
}
Formát tabulky Markdown (chartFormat=markdown)
| Měsíc | Hodnoty |
|---|---|
| Jan | 100 |
| Únor | sto padesát |
| Poškodit | 200 |
| Dubna | 250 |
| Květen | 300 |
| Jun | 275 |
Diagramy
Diagramy jsou znázorněny v obsahu obrázku pomocí syntaxe mermaid a vykresleny jako bloky kódu mermaid v Markdownu.
graph TD
A[Start] --> B{Decision}
B -->|Yes| C[Action 1]
B -->|No| D[Action 2]
C --> E[End]
D --> E
Podpora vykreslování
Oblíbená rozšíření a prohlížeče Markdown podporují vizuální vykreslování bloků kódu Chart.js i mermaid:
- Chart.js: Vykreslí interaktivní grafy a diagramy.
- Mermaid: Vykresluje vývojové diagramy, sekvenční diagramy a další typy diagramů.
- Většina moderních procesorů Markdownu zahrnuje moduly plug-in pro oba formáty.
Řádky a odstavce
Odstavce jsou v Markdownu reprezentované jako blok textu odděleného prázdnými řádky. Pokud jsou řádky k dispozici, každý řádek dokumentu se mapuje na samostatný řádek v Markdownu.
Oddíly
Odstavce s rolí nadpisu nebo nadpisu oddílu se převedou na nadpisy Markdownu. Název, pokud existuje, je přiřazený nadpisem úrovně 1. Úrovně nadpisů všech ostatních oddílů jsou přiřazeny k zachování zjištěné hierarchické struktury.
Tabulky
Tabulky jsou v Markdownu v současné době reprezentovány pomocí značky tabulky HTML (, , a <table>) k povolení podpory sloučených buněk prostřednictvím <tr> a <th> atributů a bohatých hlaviček prostřednictvím <td>. rowspancolspan<th> Každý titulek je reprezentován prostřednictvím elementu <caption> . Všechny přidružené poznámky pod čarou se zobrazí jako text bezprostředně za tabulkou.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
| Záhlaví A | Hlavička B |
|---|---|
| Buňka 1A | Buňka 1B |
| Buňka 2A | Buňka 2B |
Metadata stránky
Markdown nepodporuje nativní kódování metadat stránek, jako jsou čísla stránek, záhlaví, zápatí a přerušení. Vzhledem k tomu, že tyto informace můžou být užitečné pro podřízené aplikace, zakódujeme taková metadata jako komentáře HTML.
| Metadatové informace | Markdown |
|---|---|
| Číslo stránky | <!-- PageNumber="1" --> |
| Záhlaví stránky | <!-- PageHeader="Header" --> |
| Zápatí stránky | <!-- PageFooter="Footer" --> |
| Konec stránky | <!-- PageBreak --> |
Hyperlinks
Zjištěné hypertextové odkazy z digitálního obsahu jsou reprezentovány pomocí standardní syntaxe odkazu Markdown. Služba zachová zobrazovaný text i cílovou adresu URL z původního dokumentu.
| Typ odkazu | Vzor Markdownu | Příklad |
|---|---|---|
| Standardní odkaz | [display text](url) |
[Visit Microsoft](https://www.microsoft.com) |
Examples
For more information, visit the [Microsoft Foundry](https://aka.ms/ai-foundry) portal.
Contact our support team at [support@contoso.com](mailto:support@contoso.com "Email support").
See the [official documentation][docs] for detailed instructions.
[docs]: https://docs.microsoft.com
Anotace
Poznámky k dokumentu, jako jsou zvýraznění, podtržení a komentáře, můžou být v Markdownu reprezentovány pomocí různých formátů řízených parametrem annotationFormat .
Formáty poznámek
| Formát | Description | Případ použití |
|---|---|---|
none |
V Markdownu nejsou žádné informace o poznámce. | Úplná kontrola nad reprezentací poznámek |
frontMatter |
Anotace ve front matter YAML obsahující HTML rozsahy | Jednoduché scénáře RAG s úplným kontextem dokumentu |
markdown |
Nativní syntaxe poznámek Markdownu | Standardní kompatibilita Markdownu |
Formát: žádný
Když nastavíte annotationFormat=none, Markdown neobsahuje žádné informace o poznámkách. Nastavte jak enableAnnotation, tak i returnDetails na true pro extrakci poznámek.
This is the document content without any annotation markers.
Use the annotations JSON property to customize representation.
Formát: frontMatter (výchozí)
Kóduje poznámky ve YAML front matter pomocí HTML rozsahů obsahujících atributy id, které odkazují na podrobnosti poznámek.
---
fields:
title: "Document Title"
annotations:
- id: underline-1
author: Paul
type: underline
comments:
- message: "Please review this section"
author: Paul
tags: "approved,👍3"
- id: highlight-2
author: Sarah
type: highlight
comments:
- message: "Important information"
author: Sarah
---
This is <span id="underline-1">underlined text</span> in the document.
This section contains <span id="highlight-2">highlighted content</span> for emphasis.
<!-- Annotations without spans appear at page end -->
<span id="note-3" />
Formát: markdown
Používá nativní syntaxi Markdownu pro poznámky, pokud je podporovaný cílovým procesorem Markdownu.
This text has ==highlighted content== for emphasis.
This text has ++underlined content++ for attention.
> **Note:** This is an annotation comment.
Závěr
Prvky Markdownu Pro pochopení obsahu představují účinný způsob, jak znázorňovat strukturu a obsah analyzovaných dokumentů. Pokud těmto prvkům Markdownu rozumíte a používáte je správně, můžete vylepšit pracovní postupy zpracování dokumentů. Můžete také vytvářet sofistikovanější aplikace pro extrakci obsahu.
Související obsah
- Zkuste obsah dokumentu zpracovat pomocí nástroje Content Understanding Studio.
- Podívejte se na průvodce rychlým začátkem pro Content Understanding Studio.
- Naučte se analyzovat obsah dokumentu pomocí šablon analyzátoru.
- Projděte si ukázky kódu pomocí vizuálního vyhledávání dokumentů.
- Projděte si ukázkové šablony analyzátoru kódu.