Analýza dokumentu: Reprezentace Markdownu

Azure Content Understanding in Foundry Tools převádí nestrukturované dokumenty na GitHub Flavored Markdown a přitom udržuje obsah a rozložení pro přesné podřízené použití. Tento článek popisuje, jak je každý prvek obsahu a rozložení reprezentován v Markdownu.

Slova a značky pro výběr

Rozpoznaná slova a zjištěné značky výběru jsou reprezentovány v Markdownu jako prostý text. Značky výběru jsou kódovány pomocí znaků Unicode (vybraných) a (nezaškrtla). Obsah může být uvozován, aby se zabránilo nejednoznačnosti syntaxe formátování Markdownu.

Čárové kódy

Čárové kódy jsou reprezentovány jako obrázky Markdownu s alternativním textem a názvem: ![alt text](url "title").

Typ obsahu Vzor Markdownu Příklad
Čárový kód ![{barcode.kind}]({barcode.path} "{barcode.value}") ![QRCode](barcodes/1.2 "https://www.microsoft.com")

Vzorce

Matematické vzorce jsou kódovány pomocí LaTeX v Markdownu:

  • Vložené vzorce jsou uzavřeny v jednoduché dolarové znaky ($...$) pro zachování plynulosti textu.
  • Pro samostatné zobrazení vzorce se používají dvojité znaky dolaru ($$...$$).
  • Víceřádkové vzorce jsou reprezentovány jako vzorce po sobě jdoucích zobrazení, aniž by byly vloženy prázdné řádky. Tato struktura zachovává matematické vztahy.
Druh vzorce Markdown Vizualizace
Na řádku $\sqrt { -1 } $ is $i$ $\sqrt { -1 } $ je $i$
Displej $$a^2 + b^2 = c^2$$ $a^2 + b^2 = c^2$
Víceřádkové $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$
$$= x ( x + 4 ) + 4$$
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$

Obrázky

Zjištěné obrázky, včetně obrázků a grafů, jsou reprezentovány pomocí standardní syntaxe obrázků Markdownu. Alternativní text obsahuje rozpoznaný text uvnitř obrázku a syntaxe se liší podle možností konfigurace.

Vzory reprezentace obrázků

Konfigurace Vzor Markdownu Description
Basic ![detected text](figures/path) Standardní obrázek bez popisu
enableFigureDescription ![detected text](figures/path "description") Obsahuje vygenerovaný popis obrázku.
povolitPopisObrázku + povolitAnalýzuObrázku ![detected text](figures/path "description") následovaný grafem, tabulkou Markdownu nebo diagramem Mermaid Obrázek s popisem a připojenou analýzou obrázku (graf, tabulka nebo diagram)
Povolit analýzu obrysů pouze ![detected text](figures/path) následovaný grafem, tabulkou Markdownu nebo diagramem Mermaid Obrázek bez popisu a připojené analýzy obrázku (graf, tabulka nebo diagram)

Examples

Obrázek bez povoleníFigureDescription

![Line1 Line2](figures/1.1)

Obrázek s povolením popisu obrázku

![Line1 Line2](figures/1.1 "This is a generated image description.")

Obrázek s povolením popisu obrázku a analýzy obrázku

![Line1 Line2](figures/1.1 "This is a generated image description.")
Možnost 1: Analýza obrázku grafu
{ ...chart config... }
Možnost 2: Analýza figurek v tabulce Markdown
| Month | Value |
|-------|-------|
| Jan   | 100   |
| Feb   | 150   |
| Mar   | 200   |
| Apr   | 250   |
| May   | 300   |
| Jun   | 275   |

Obrázek bez povolených funkcí FigureDescription a FigureAnalysis

![Line1 Line2](figures/1.1)

```mermaid
{ ...mermaid diagram... }

Analýza obrázku

Grafy a diagramy zjištěné v dokumentech jsou reprezentovány jako obsah strukturovaného obrázku se specializovanými formáty vykreslování.

Žebříčky

Grafy jsou reprezentovány v obsahu obrázku pomocí syntaxe Chart.js ve formátu JSON. V závislosti na config.chartFormat nastavení (chartJs nebo markdown) je možné grafy reprezentovat jako Chart.js bloky kódu nebo tabulky Markdownu.

formát Chart.js (chartFormat=chartJs)

{
  "type": "bar",
  "data": {
    "labels": ["Jan", "Feb", "Mar", "Apr", "May", "Jun"],
    "datasets": [{
      "label": "Values",
      "data": [100, 150, 200, 250, 300, 275],
      "backgroundColor": "rgba(54, 162, 235, 0.2)",
      "borderColor": "rgba(54, 162, 235, 1)",
      "borderWidth": 1
    }]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true
      }
    }
  }
}

Formát tabulky Markdown (chartFormat=markdown)

Měsíc Hodnoty
Jan 100
Únor sto padesát
Poškodit 200
Dubna 250
Květen 300
Jun 275

Diagramy

Diagramy jsou znázorněny v obsahu obrázku pomocí syntaxe mermaid a vykresleny jako bloky kódu mermaid v Markdownu.

graph TD
    A[Start] --> B{Decision}
    B -->|Yes| C[Action 1]
    B -->|No| D[Action 2]
    C --> E[End]
    D --> E

Podpora vykreslování

Oblíbená rozšíření a prohlížeče Markdown podporují vizuální vykreslování bloků kódu Chart.js i mermaid:

  • Chart.js: Vykreslí interaktivní grafy a diagramy.
  • Mermaid: Vykresluje vývojové diagramy, sekvenční diagramy a další typy diagramů.
  • Většina moderních procesorů Markdownu zahrnuje moduly plug-in pro oba formáty.

Řádky a odstavce

Odstavce jsou v Markdownu reprezentované jako blok textu odděleného prázdnými řádky. Pokud jsou řádky k dispozici, každý řádek dokumentu se mapuje na samostatný řádek v Markdownu.

Oddíly

Odstavce s rolí nadpisu nebo nadpisu oddílu se převedou na nadpisy Markdownu. Název, pokud existuje, je přiřazený nadpisem úrovně 1. Úrovně nadpisů všech ostatních oddílů jsou přiřazeny k zachování zjištěné hierarchické struktury.

Tabulky

Tabulky jsou v Markdownu v současné době reprezentovány pomocí značky tabulky HTML (, , a <table>) k povolení podpory sloučených buněk prostřednictvím <tr> a <th> atributů a bohatých hlaviček prostřednictvím <td>. rowspancolspan<th> Každý titulek je reprezentován prostřednictvím elementu <caption> . Všechny přidružené poznámky pod čarou se zobrazí jako text bezprostředně za tabulkou.

<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
Tabulka 1. Příklad
Záhlaví AHlavička B
Buňka 1ABuňka 1B
Buňka 2ABuňka 2B
Toto je poznámka pod čarou.

Metadata stránky

Markdown nepodporuje nativní kódování metadat stránek, jako jsou čísla stránek, záhlaví, zápatí a přerušení. Vzhledem k tomu, že tyto informace můžou být užitečné pro podřízené aplikace, zakódujeme taková metadata jako komentáře HTML.

Metadatové informace Markdown
Číslo stránky <!-- PageNumber="1" -->
Záhlaví stránky <!-- PageHeader="Header" -->
Zápatí stránky <!-- PageFooter="Footer" -->
Konec stránky <!-- PageBreak -->

Zjištěné hypertextové odkazy z digitálního obsahu jsou reprezentovány pomocí standardní syntaxe odkazu Markdown. Služba zachová zobrazovaný text i cílovou adresu URL z původního dokumentu.

Typ odkazu Vzor Markdownu Příklad
Standardní odkaz [display text](url) [Visit Microsoft](https://www.microsoft.com)

Examples

For more information, visit the [Microsoft Foundry](https://aka.ms/ai-foundry) portal.

Contact our support team at [support@contoso.com](mailto:support@contoso.com "Email support").

See the [official documentation][docs] for detailed instructions.

[docs]: https://docs.microsoft.com

Anotace

Poznámky k dokumentu, jako jsou zvýraznění, podtržení a komentáře, můžou být v Markdownu reprezentovány pomocí různých formátů řízených parametrem annotationFormat .

Formáty poznámek

Formát Description Případ použití
none V Markdownu nejsou žádné informace o poznámce. Úplná kontrola nad reprezentací poznámek
frontMatter Anotace ve front matter YAML obsahující HTML rozsahy Jednoduché scénáře RAG s úplným kontextem dokumentu
markdown Nativní syntaxe poznámek Markdownu Standardní kompatibilita Markdownu

Formát: žádný

Když nastavíte annotationFormat=none, Markdown neobsahuje žádné informace o poznámkách. Nastavte jak enableAnnotation, tak i returnDetails na true pro extrakci poznámek.

This is the document content without any annotation markers.
Use the annotations JSON property to customize representation.

Formát: frontMatter (výchozí)

Kóduje poznámky ve YAML front matter pomocí HTML rozsahů obsahujících atributy id, které odkazují na podrobnosti poznámek.

---
fields:
  title: "Document Title"
annotations:
- id: underline-1
  author: Paul
  type: underline
  comments:
  - message: "Please review this section"
    author: Paul
    tags: "approved,👍3"
- id: highlight-2
  author: Sarah
  type: highlight
  comments:
  - message: "Important information"
    author: Sarah
---

This is <span id="underline-1">underlined text</span> in the document.

This section contains <span id="highlight-2">highlighted content</span> for emphasis.

<!-- Annotations without spans appear at page end -->
<span id="note-3" />

Formát: markdown

Používá nativní syntaxi Markdownu pro poznámky, pokud je podporovaný cílovým procesorem Markdownu.

This text has ==highlighted content== for emphasis.

This text has ++underlined content++ for attention.

> **Note:** This is an annotation comment.

Závěr

Prvky Markdownu Pro pochopení obsahu představují účinný způsob, jak znázorňovat strukturu a obsah analyzovaných dokumentů. Pokud těmto prvkům Markdownu rozumíte a používáte je správně, můžete vylepšit pracovní postupy zpracování dokumentů. Můžete také vytvářet sofistikovanější aplikace pro extrakci obsahu.