次の方法で共有


ドキュメント分析: マークダウン表現

Azure AI Content Understanding は、コンテンツとレイアウトを維持しながら、非構造化ドキュメントを GitHub Flavored Markdown に変換し、正確なダウンストリーム使用を実現します。 このドキュメントでは、各コンテンツ要素とレイアウト要素をマークダウンで表す方法について説明します。

単語と選択マーク

認識された単語と検出された選択マークは、マークダウンでプレーン テキストとして表されます。 選択マークは、Unicode 文字 (選択) および (選択されていない) を使用してエンコードされます。 マークダウン書式構文のあいまいさを回避するために、コンテンツがエスケープされる場合があります。

バーコード

バーコードは、代替テキストとタイトル ( ![alt text](url "title")) でマークダウン画像として表されます。

コンテンツ タイプ Markdown パターン
バーコード ![{barcode.kind}]({barcode.path} "{barcode.value}") ![QRCode](barcodes/1.2 "https://www.microsoft.com")

数式

数式は、Markdown で LaTeX を使用してエンコードされます。

  • インライン数式は、テキスト フローを維持するために 1 ドル記号 ($...$) で囲まれます。
  • 表示式は、スタンドアロンディスプレイに二重ドル記号 ($$...$$) を使用します。
  • 複数行の数式は、空白行を介在させずに連続する表示式として表され、数学的な関係が維持されます。
数式の種類 Markdown 視覚化
インライン $\sqrt { -1 } $ is $i$ $\sqrt { -1 } $ は$i$ です
ディスプレイ $$a^2 + b^2 = c^2$$ $a^2 + b^2 = c^2$
複数行 $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$
$$= x ( x + 4 ) + 4$$
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$ = x ( x + 4 ) + 4$$

画像

検出された画像 (図やグラフを含む) は、現在、マークダウン内の HTML <figure> 要素を使用して表され、画像内の検出されたテキストがラップされます。 キャプションは、 <figcaption> 要素を介して表されます。 関連付けられている脚注は、図の直後にテキストとして表示されます。

<figure>
<figcaption>Figure 2: Example</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is a footnote.

行と段落

段落はマークダウンで空白行で区切られたテキスト ブロックとして表されます。 行を使用できる場合、各ドキュメント行は Markdown 内の個別の行にマップされます。

セクション

タイトルまたはセクション見出しロールを持つ段落は、マークダウン見出しに変換されます。 タイトルがある場合は、見出しレベル 1 が割り当てられます。 検出された階層構造を保持するために、他のすべてのセクションの見出しレベルが割り当てられます。

現在、テーブルは HTML テーブル マークアップ (<table><tr><th><td>) を使用してマークダウンで表され、 rowspan および colspan 属性を介して結合されたセルと、 <th>を介したリッチ ヘッダーがサポートされます。 キャプションは、 <caption> 要素を介して表されます。 関連付けられている脚注は、テーブルの直後にテキストとして表示されます。

<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.

メタデータのページ

Markdown では、ページ番号、ヘッダー、フッター、区切りなどのページ メタデータはネイティブにエンコードされません。 この情報はダウンストリーム アプリケーションに役立つ可能性があるため、HTML コメントなどのメタデータをエンコードします。

メタデータ Markdown
ページ番号 <!-- PageNumber="1" -->
ページのヘッダー <!-- PageHeader="Header" -->
ページ フッター <!-- PageNumber="Footer" -->
改ページ <!-- PageBreak -->

結論

Content Understanding の Markdown 要素は、分析されたドキュメントの構造とコンテンツを表す強力な方法を提供します。 これらの Markdown 要素を理解して適切に利用することで、ドキュメント処理ワークフローを強化し、より高度なコンテンツ抽出アプリケーションを構築できます。

次のステップ