Azure AI Content Understanding은 정확한 다운스트림 사용을 위해 콘텐츠와 레이아웃을 유지하면서 구조화되지 않은 문서를 GitHub Flavored Markdown으로 변환합니다. 이 문서에서는 각 콘텐츠 및 레이아웃 요소가 markdown에 표시되는 방법을 설명합니다.
단어 및 선택 표시
인식된 단어와 감지된 선택 표시는 markdown에서 일반 텍스트로 표시됩니다. 선택 표시는 유니코드 문자 ☒
(선택됨) 및 ☐
(선택되지 않음)을 사용하여 인코딩됩니다. markdown 서식 지정 구문의 모호성을 방지하기 위해 콘텐츠를 이스케이프할 수 있습니다.
바코드
바코드는 대체 텍스트와 제목 
이 있는 markdown 이미지로 표시됩니다.
콘텐츠 형식 | Markdown 패턴 | 예시 |
---|---|---|
바코드 |  |
 |
수식
수학 수식은 Markdown에서 LaTeX를 사용하여 인코딩됩니다.
- 인라인 수식은 텍스트 흐름을 유지하기 위해 1달러 기호(
$...$
)로 묶입니다. - 디스플레이 수식은 독립 실행형 디스플레이에 이중 달러 기호(
$$...$$
)를 사용합니다. - 여러 줄 수식은 빈 선을 개입하지 않고 수학적 관계를 유지하지 않고 연속된 표시 수식으로 표시됩니다.
수식 종류 | 마크다운 | 시각화 |
---|---|---|
인라인 | $\sqrt { -1 } $ is $i$ |
$\sqrt { -1 } $는 $i$입니다. |
디스플레이 | $$a^2 + b^2 = c^2$$ |
$a^2 + b^2 = c^2$ |
여러 줄 | $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$ |
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$= x ( x + 4 ) + 4$$ |
이미지
그림과 차트를 포함하여 검색된 이미지는 현재 이미지에서 검색된 텍스트를 래핑하는 MARKDOWN의 HTML <figure>
요소를 사용하여 표시됩니다. 모든 캡션은 <figcaption>
요소를 통해 표현됩니다. 연결된 각주가 그림 바로 뒤의 텍스트로 표시됩니다.
<figure>
<figcaption>Figure 2: Example</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is a footnote.
줄 및 단락
단락은 markdown에서 빈 줄로 구분된 텍스트 블록으로 표시됩니다. 줄을 사용할 수 있는 경우 각 문서 줄은 markdown의 별도 줄에 매핑됩니다.
단락
제목 또는 섹션 제목 역할이 있는 단락은 markdown 제목으로 변환됩니다. 제목(있는 경우)에 제목 수준 1이 할당됩니다. 검색된 계층 구조를 유지하기 위해 다른 모든 섹션의 제목 수준이 할당됩니다.
테이블
테이블은 현재 HTML 테이블 마크업(<table>
, <tr>
, <th>
, <td>
)을 사용하여 markdown에 표시되며, 병합된 셀 지원은 rowspan
및 colspan
특성을 통해 가능하고, <th>
을 사용하여 서식 있는 헤더를 지원합니다. 모든 캡션은 <caption>
요소를 통해 표시됩니다. 연결된 각주가 표 바로 뒤의 텍스트로 표시됩니다.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
페이지 메타데이터
Markdown은 페이지 번호, 머리글, 꼬리말 및 페이지 나누기와 같은 페이지 관련 메타데이터를 원래 인코딩하지 않습니다. 이 정보는 다운스트림 애플리케이션에 유용할 수 있으므로 HTML 주석과 같은 메타데이터를 인코딩합니다.
메타데이터 | 마크다운 |
---|---|
페이지 번호 | <!-- PageNumber="1" --> |
페이지 머리글 | <!-- PageHeader="Header" --> |
페이지 바닥글 | <!-- PageNumber="Footer" --> |
페이지 나누기 | <!-- PageBreak --> |
결론
Content Understanding의 Markdown 요소는 분석된 문서의 구조와 콘텐츠를 나타내는 강력한 방법을 제공합니다. 이러한 Markdown 요소를 이해하고 적절하게 활용하면 문서 처리 워크플로를 향상시키고 보다 정교한 콘텐츠 추출 애플리케이션을 빌드할 수 있습니다.
다음 단계
- Azure AI Foundry에서 Content Understanding을 사용하여 문서 콘텐츠를 처리해 보세요.
- 문서 콘텐츠 분석기 템플릿을 분석하는 방법을 알아봅니다.
- 코드 샘플 검토: 시각적 문서 검색
- 코드 샘플 검토: 분석기 템플릿.