Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Azure AI Belge Zekası Düzeni API'si, belgelerinizi zengin Markdown'a dönüştürerek özgün yapılarını ve biçimlendirmelerini korur. Paragrafların, başlıkların, tabloların ve diğer belge öğelerinin uygun hiyerarşisinde yer aldığı, sembolik olarak yapılandırılmış içerik alma isteğinizde belirtmeniz gerekir outputContentFormat=markdown
.
Bu Markdown çıkışı, aşağı akış uygulamaları için standartlaştırılmış, kolay kullanılabilir içerik sağlarken belgenin özgün kuruluşunu zarif bir şekilde yakalar. Korunan anlam yapısı, belge öğeleri arasındaki bağlamı ve ilişkileri kaybetmeden daha karmaşık belge işleme iş akışları sağlar.
Düzen Analizi'nde desteklenen Markdown öğeleri
Düzen API'si yanıtlarına aşağıdaki Markdown öğeleri eklenir:
- Paragraf
- Başlık
- Tablo
- Şekil
- Seçim İşareti
- Formül
- Barkod
- SayfaNumarası/SayfaBaşlığı/SayfaAltBilgisi
- PageBreak
- AnahtarDeğerÇiftleri/Dil/Üslup
- Yayılma Alanları ve İçerik
Paragraf
Paragraflar, birbirine ait olan uyumlu metin bloklarını temsil eder. Düzen API'sinde paragraf bütünlüğü şu şekilde korunur:
- Ayrı paragraflar arasında boş satırlarla paragraf sınırlarını koruma
- Özgün belgenin görsel yapısını korumak için paragraflar içinde satır sonları kullanma
- Özgün belgenin okuma sırasına uygun metin akışını koruma
İşte bir örnek:
This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.
This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.
Başlık
Başlıklar, gezintiyi ve anlayışı kolaylaştırmak için belge içeriğini hiyerarşik bir yapıda düzenler. Düzen API'sinde aşağıdaki özellikler vardır:
- Başlık düzeylerine karşılık gelen 1-6 karma simge (#) ile standart Markdown başlık söz dizimlerini kullanır.
- Daha iyi okunabilirlik için her başlık öncesinde iki boş satırla doğru aralığı korur.
İşte bir örnek:
# This is a title
## This is heading 1
### This is heading 2
#### This is heading 3
Tablo
Tablolar, karmaşık yapılandırılmış verileri görsel olarak düzenlenmiş bir biçimde korur. Düzen API'sinde en yüksek uygunluk ve uyumluluk için HTML tablosu söz dizimi kullanılır:
- Standart Markdown tabloları yerine tam HTML tablo işaretlemesi (
<table>
,<tr>
,<th>
,<td>
) uygular - Birleştirilmiş hücreyi HTML rowspan ve colspan öznitelikleriyle korur.
- Belge bağlamını korumak için
<caption>
etiketini kullanarak tablo başlıklarını korur. - Üst bilgiler, hücreler ve alt bilgiler dahil olmak üzere karmaşık tablo yapılarını işler
- Daha iyi okunabilirlik için her tablodan önce iki boş satırla düzgün aralık tutar
- Tablo dipnotlarını tablodan sonra ayrı paragraf olarak korur
İşte bir örnek:
<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.
Şekil
Düzen API'si şekil öğelerini korur:
- Çevresindeki metinden anlamsal ayrımı korumak için etiketlerdeki
<figure>
şekil içeriğini kapsüller - Önemli bağlam sağlamak için etiketle birlikte
<figcaption>
şekil resim yazılarını korur - Şekil dipnotlarını, şekil kapsayıcısını izleyen ayrı paragraflar olarak korur
Önemli
Şekillerin bir parçası olarak bölüm başlığı gibi bazı belge bileşenlerini algıladığımız durumlarda, markdown çıkışı çıktıda şekiller sunmaz ve belge yapısı analizi için bilgileri kullanır. Bu durumlarda, tüm rakamları almak için JSON'daki şekiller alanını numaralandırın.
İşte bir örnek:
<figure>
<figcaption>Figure 2 This is a figure</figcaption>
Values
300
200
100
0
Jan Feb Mar Apr May Jun Months
</figure>
This is footnote if the figure have.
Seçim İşareti
Seçim işaretleri, formlarda ve belgelerde onay kutusu benzeri öğeleri temsil eder. Düzen API'si:
- Görsel netlik için Unicode karakterleri kullanır: ☒ (işaretli) ve ☐ (işaretsiz)
- Güvenilirliği artırmak için düşük güvenilirlikli onay kutusu algılamalarını (0,1 güvenilirliğin altında) filtreler
- Seçim işaretleri ile ilişkili metinleri arasındaki anlamsal ilişkiyi korur
Formül
Matematiksel formüller, karmaşık matematiksel ifadelerin işlenmesine olanak tanıyan LaTeX uyumlu söz dizimi ile korunur:
- Satır içi formüller, metin akışını korumak için tek dolar işaretleri (
$...$
) içine alınır - Blok formülleri tek başına görüntüleme için çift dolar işareti (
$$...$$
) kullanır - Çok satırlı formüller ardışık blok formülleri olarak gösterilir ve matematiksel ilişkileri korur
- Doğru gösterimi sağlamak için özgün aralık ve biçimlendirme korunur
Satır içi formül, tek satırlı formül bloğu ve birden çok satırlı formül bloğu örneği aşağıda verilmiştir:
The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula
$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$
$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$
Barkod
Barkodlar ve QR kodları, eklenen anlam bilgileriyle Markdown resim söz dizimi kullanılarak temsil edilir:
- Açıklayıcı özniteliklerle standart görüntü Markdown söz dizimlerini kullanır
- Hem barkod türünü (QR kodu, barkod vb.) hem de kodlanmış değerini yakalar
- Barkodlar ve çevresindeki içerik arasındaki anlamsal ilişkiyi korur
İşte bir örnek:



SayfaNumarası/SayfaBaşlığı/SayfaAltBilgisi
Sayfa meta verileri öğeleri, belge sayfalandırma hakkında bağlam sağlar, ancak ana içerikle satır içinde görüntülenmesi amaçlanmamıştır:
- Standart Markdown işlemesinden gizlenirken bilgileri korumak için HTML açıklamaları içerisine alınmıştır.
- Belgenin yeniden yapılandırılması için değerli olabilecek özgün sayfa yapısı bilgilerini korur
- Uygulamaların içerik akışını kesintiye uğratmadan belge sayfalandırmayı anlamasını sağlar
İşte bir örnek:
<!-- PageHeader="This is page header" -->
<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->
PageBreak
Saf Markdown içeriğinde hangi bölümlerin hangi sayfa tabanına ait olduğunu kolayca bulmak için sayfaların sınırlayıcısı olarak PageBreak'i kullanıma sunmuştuk
İşte bir örnek:
<!-- PageBreak -->
AnahtarDeğerÇiftleri/Dil/Üslup
KeyValuePairs/Language/Style için bunları Markdown içeriğinde değil, Analytics JSON gövdesine eşleştiririz.
Uyarı
GitHub.com kullanıcı içeriği için şu anda desteklenen Markdown hakkında daha fazla bilgi için bkz. GitHub Flavored Markdown Spec.
Sonuç
Belge Zekası'nın Markdown öğeleri, analiz edilen belgelerin yapısını ve içeriğini göstermek için güçlü bir yol sağlar. Bu Markdown öğelerini anlayıp düzgün bir şekilde kullanarak belge işleme iş akışlarınızı geliştirebilir ve daha gelişmiş içerik ayıklama uygulamaları oluşturabilirsiniz.
Sonraki Adımlar
Document Intelligence Studio ile belgelerinizi işlemeye çalışın.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.