Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu içerik şunlar için geçerlidir:
v4.0 (GA) | Önceki sürümler:
v3.1 (GA)
v3.0 (GA)
v2.1 (GA)
Foundry Tools'ta Azure Document Intelligence düzen modeli, makine öğrenmesini temel alan gelişmiş bir belge analizi API'sidir. Model, Belge Zekası bulutunda kullanılabilir. Belgeleri çeşitli biçimlerde almak ve belgelerin yapılandırılmış veri gösterimlerini döndürmek için kullanabilirsiniz. Model, metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü optik karakter tanıma (OCR) özelliklerinin gelişmiş bir sürümünü derin öğrenme modelleri ile birleştirir.
Belge yapısı düzen analizi
Belge yapısı düzen analizi, ilgilendiğiniz bölgeleri ve aralarındaki ilişkileri ayıklamak için bir belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Belge düzeninde iki tür rol vardır:
- Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
- Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.
Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.
Dağıtım seçenekleri
Belge Yönetim Bilgileri v4.0: 2024-11-30 (GA), aşağıdaki araçları, uygulamaları ve kitaplıkları destekler.
| Özellik | Kaynaklar | Model Kimliği |
|---|---|---|
| Düzen modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Desteklenen diller
Desteklenen dillerin tam listesi için bkz . Dil desteği: Belge çözümleme modelleri.
Desteklenen dosya türleri
Document Intelligence v4.0: 2024-11-30 (GA) düzen modeli aşağıdaki dosya biçimlerini destekler:
| Örnek | Resim: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLS), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Tasarım Düzeni | ✔ | ✔ | ✔ |
Giriş gereksinimleri
- Fotoğraflar ve taramalar: En iyi sonuçlar için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
- PDF'ler ve TIFF'ler: PDF'ler ve TIFF'ler için en fazla 2.000 sayfa işlenebilir. (Ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir.)
- Parola kilitleri: PDF'leriniz parola kilitliyse, göndermeden önce kilidi kaldırmanız gerekir.
- Dosya boyutu: Belgeleri analiz etmek için dosya boyutu ücretli (S0) katmanı için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
- Görüntü boyutları: Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
- Metin yüksekliği: Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta olan yaklaşık 8 noktalı metne karşılık gelir.
- Özel model eğitimi: Eğitim verileri için en fazla sayfa sayısı, özel şablon modeli için 500 ve özel sinir modeli için 50.000'dir.
- Özel ayıklama modeli eğitimi: Eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1 GB'tır.
- Özel sınıflandırma modeli eğitimi: Eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 1 GB'tır. 2024-11-30 (GA) için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 2 GB'tır.
- Office dosya türleri (DOCX, XLSX, PPTX): En fazla dize uzunluğu sınırı 8 milyon karakterdir.
Model kullanımı, kotalar ve hizmet sınırları hakkında daha fazla bilgi için bkz. Hizmet sınırları.
Düzen modelini kullanmaya başlama
Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Belge Yönetim Bilgileri kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız vardır:
Bir Azure aboneliği. Ücretsiz bir tane oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (F0) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Anahtarınızı ve uç noktanızı aldıktan sonra, Belge Zekası uygulamalarınızı derlemek ve dağıtmak için aşağıdaki geliştirme seçeneklerini kullanın.
Veri ayıklama
Düzen modeli, belgelerinizdeki yapısal öğeleri ayıklar. Bu makalenin geri kalanında, bunları belge girişinizden ayıklama yönergeleriyle birlikte aşağıdaki yapısal öğeler açıklanmıştır:
Örnek düzen belge analizini Document Intelligence Studio'da çalıştırın. Ardından sonuçlar sekmesine gidin ve tam JSON çıkışına erişin.
Sayfalar
Koleksiyon pages , belgedeki sayfaların listesidir. Her sayfa belge içinde sıralı olarak temsil edilir ve sayfanın döndürülmüş olup olmadığını gösteren yönlendirme açısını ve genişlik ile yüksekliği (piksel cinsinden boyutlar) içerir. Model çıkışındaki sayfa birimleri aşağıdaki tabloda gösterildiği gibi hesaplanır.
| Dosya biçimi | Hesaplanan sayfa birimi | Toplam sayfa sayısı |
|---|---|---|
| Görüntüler (JPEG/JPG, PNG, BMP, HEIF) | Her resim = 1 sayfa birimi. | Toplam resim sayısı |
| PDF = 1 sayfa birimindeki her sayfa. | PDF'deki toplam sayfa sayısı | |
| TIFF | TIFF = 1 sayfa birimindeki her görüntü. | TIFF'deki toplam görüntü sayısı |
| Word (DOCX) | En fazla 3.000 karakter = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
| Excel (XLSX) | Her çalışma sayfası = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Toplam çalışma sayfası |
| PowerPoint (PPTX) | Her slayt = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Toplam slayt sayısı |
| HTML | En fazla 3.000 karakter = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Seçili sayfaları ayıklama
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages .
Paragraflar
Düzen modeli, koleksiyondaki paragraphs tanımlanan tüm metin bloklarını altında analyzeResultsen üst düzey nesne olarak ayıklar. Bu koleksiyondaki her girdi bir metin bloğunu temsil eder ve ayıklanan metni ve sınırlayıcı content koordinatları içerirpolygon. Bilgiler, spans belgenin tam metnini içeren üst düzey content özellik içindeki metin parçasını gösterir.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Paragraf rolleri
Makine öğrenmesini temel alan yeni sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Belge Yönetim Bilgileri düzen modeli, koleksiyondaki paragraphs belirli metin bloklarını model tarafından tahmin edilen özelleştirilmiş rolü veya türüyle atar.
Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için yapılandırılmamış belgelerle paragraf rollerini kullanmak en iyisidir. Aşağıdaki paragraf rolleri desteklenir.
| Tahmin edilen rol | Description | Desteklenen dosya türleri |
|---|---|---|
title |
Sayfadaki ana başlıklar | PDF, Resim, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Sayfadaki bir veya daha fazla alt başlık | PDF, Resim, DOCX, XLSX, HTML |
footnote |
Sayfanın alt kısmındaki metin | PDF, Resim |
pageHeader |
Sayfanın üst kenarına yakın metin | PDF, Görüntü, DOCX |
pageFooter |
Sayfanın alt kenarına yakın metin | PDF, Resim, DOCX, PPTX, HTML |
pageNumber |
Sayfa numarası | PDF, Resim |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Metin, satır ve sözcükler
Belge Yönetim Bilgileri'ndeki belge düzeni modeli, yazdırma ve el yazısı stilindeki metinleri ve linesolarak words ayıklar. Koleksiyon, styles algılanırsa satırlar için el yazısı stilini ve ilişkili metne işaret eden aralıkları içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.
Microsoft Word, Excel, PowerPoint ve HTML için, Belge Zekası v4.0 2024-11-30 (GA) düzen modeli tüm eklenmiş metni olduğu gibi ayıklar. Metinler sözcük ve paragraf olarak ayıklanır. Eklenmiş görüntüler desteklenmez.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Metin satırları için el yazısı stili
Yanıt, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını içerir. Daha fazla bilgi için bkz. El yazısı dil desteği. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin styles bir parçası olarak yazı tipi/stil sonucunu da alırsınız.
Seçim işaretleri
Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Her sayfa için ayıklanan seçim işaretleri pages koleksiyonu içinde görünür. Sınırlayıcı polygon, confidence ve seçim state (selected/unselected) içeriyor. Metin gösterimi (yani :selected: ve :unselected) başlangıç dizini (offset) olarak da eklenir ve length belgenin tam metnini içeren üst düzey content özelliğe başvurur.
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
Tablolar
Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli veriler içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir.
Sınırlayıcı çokgeni olan her hücre, alanın olarak columnHeader tanınıp tanınmadığı bilgisinin yanı sıra çıkıştır. Model, döndürülmüş tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için, model başlangıç dizinini span (offset) içeren bilgileri verir. Model, belgedeki tam metni içeren üst düzey içeriğin içinde length çıktısını da üretir.
Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:
- Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
- Veri tablo biçiminde değilse iki boyutlu bir ızgaraya sığabilir mi?
- Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için, BELGE Zekası'na göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
- Özel modeller oluşturuyorsanız bkz. Tablosal alanlar . Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.
Uyarı
Giriş dosyası XLSX ise tablo analizi desteklenmez. 2024-11-30 (GA) için şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları dışlar.
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
Markdown biçimine çıkış yanıtı
Düzen API'si, ayıklanan metnin çıkışını Markdown biçiminde verebilir. Markdown'da çıkış biçimini belirtmek için öğesini outputContentFormat=markdown kullanın. Markdown içeriği bölümün bir parçası olarak çıktılanır content .
Uyarı
v4.0 2024-11-30 (GA) için tabloların gösterimi, birleştirilmiş hücreler ve çok yerli üst bilgiler gibi öğelerin işlenmesini sağlamak için HTML tabloları olarak değiştirilir. İlgili bir diğer değişiklik de Ve yerine :selected::unselected: Unicode onay kutusu karakterlerini ☒ ve ☐ seçim işaretlerini kullanmaktır. Bu güncelleştirme, aralıkları üst düzey yayılma alanındaki Unicode karakterlerine başvuruda bulunmakla birlikte seçim işareti alanlarının içeriğinin içerdiği :selected: anlamına gelir. Markdown öğelerinin tam tanımı için bkz. Markdown çıkış biçimi.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Şekiller
Belgelerdeki şekiller (grafikler ve resimler), metin içeriğinin tamamlanmasında ve geliştirilmesinde önemli bir rol oynar. Karmaşık bilgilerin anlaşılmasına yardımcı olan görsel gösterimler sağlar. Düzen figures modeli tarafından algılanan nesnenin aşağıdaki gibi önemli özellikleri vardır:
-
boundingRegions: Sayfa numarası ve şeklin sınırının ana hatlarını oluşturan çokgen koordinatları da dahil olmak üzere, belge sayfalarında şeklin uzamsal konumları. -
spans: Metin, belgenin metni içindeki uzaklıklarını ve uzunluklarını belirten şekille ilişkilidir. Bu bağlantı, şekli ilgili metin bağlamıyla ilişkilendirmeye yardımcı olur. -
elements: Belgedeki şekille ilgili veya açıklamalı metin öğelerinin veya paragrafların tanımlayıcıları. -
caption: Varsa açıklama.
output=figures İlk analiz işlemi sırasında belirtildiğinde, hizmet aracılığıyla /analyeResults/{resultId}/figures/{figureId}erişilebilen tüm algılanan şekiller için kırpılmış görüntüler oluşturur.
FigureId Değer, sayfa başına bir taneye sıfırlandığı belgelenmemiş bir kuralı {pageNumber}.{figureIndex}figureIndex izleyerek her şekil nesnesine dahil edilen kimliktir.
v4.0 2024-11-30 (GA) için, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıyı ve dipnotları hariç tutar.
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
Bölümler
Hiyerarşik belge yapısı analizi, kapsamlı belgelerin düzenlenmesi, anlaşılması ve işlenmesinde çok önemlidir. Bu yaklaşım, kavramayı artırmak, gezinmeyi kolaylaştırmak ve bilgi alımını geliştirmek için uzun belgeleri sembolik olarak segmentlere ayırmak için çok önemlidir. Belge oluşturucu yapay zekada alma artırılmış nesil (RAG) ortaya çıkması, hiyerarşik belge yapısı analizinin öneminin altını çizer.
Düzen modeli, çıktıdaki bölümleri ve alt bölümleri destekler ve bu da her bölümdeki bölümlerin ve nesnelerin ilişkisini tanımlar. Hiyerarşik yapı her bölüm için içinde elements tutulur. Markdown'daki bölümleri ve alt bölümleri kolayca almak için Markdown biçimine yönelik çıktı yanıtını kullanabilirsiniz.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Bu içerik şunlar için geçerlidir:
onay işaretiv3.0 (GA) | En son sürümler:
mor onay işaretiv4.0 (GA)
mor onay işaretiv3.1 | blue-checkmarkv2.1
Bu içerik şunlar için geçerlidir:
CheckmarkEn son sürüm: | blue-checkmarkv4.0 (GA)
Belge Yönetim Bilgileri düzen modeli gelişmiş bir belge analizi API'sine yöneliktir. Model, makine öğrenmesini temel alır ve Belge Zekası bulutunda kullanılabilir. Belgeleri çeşitli biçimlerde almak ve belgelerin yapılandırılmış veri gösterimlerini döndürmek için kullanabilirsiniz. Güçlü OCR özelliklerinin gelişmiş bir sürümünü derin öğrenme modelleri ile birleştirir. Metni, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için bunu kullanabilirsiniz.
Belge düzeni analizi
Belge yapısı düzen analizi, ilgilendiğiniz bölgeleri ve aralarındaki ilişkileri ayıklamak için bir belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Belge düzeninde iki tür rol vardır:
- Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
- Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.
Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.
Desteklenen diller ve yerel ayarlar
Desteklenen dillerin tam listesi için bkz . Dil desteği: Belge çözümleme modelleri.
Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler.
| Özellik | Kaynaklar |
|---|---|
| Düzen modeli | • Belge Yönetim Bilgileri etiketleme aracı • REST API • İstemci kitaplığı SDK'sı • Belge Yönetim Bilgileri Docker kapsayıcısı |
Giriş kılavuzu
Desteklenen dosya biçimleri:
| Örnek | Resim: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Okundu | ✔ | ✔ | ✔ |
| Tasarım Düzeni | ✔ | ✔ | |
| Genel belge | ✔ | ✔ | |
| Önceden oluşturulmuş | ✔ | ✔ | |
| Özel çıkarım | ✔ | ✔ | |
| Özel sınıflandırma | ✔ | ✔ | ✔ |
- Fotoğraflar ve taramalar: En iyi sonuçlar için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
- PDF'ler ve TIFF'ler: PDF'ler ve TIFF'ler için 2.000 sayfaya kadar ücretsiz katmanlı abonelikle işlenebilir. Yalnızca ilk iki sayfa işlenir.
- Dosya boyutu: Belgeleri analiz etmek için dosya boyutu ücretli (S0) katmanı için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
- Görüntü boyutları: Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
- Parola kilitleri: PDF'leriniz parola kilitliyse, göndermeden önce kilidi kaldırmanız gerekir.
- Metin yüksekliği: Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta olan yaklaşık 8 noktalı metne karşılık gelir.
- Özel model eğitimi: Eğitim verileri için en fazla sayfa sayısı, özel şablon modeli için 500 ve özel sinir modeli için 50.000'dir.
- Özel ayıklama modeli eğitimi: Eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1 GB'tır.
- Özel sınıflandırma modeli eğitimi: Eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 1 GB'tır. 2024-11-30 (GA) için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 2 GB'tır.
- Office dosya türleri (DOCX, XLSX, PPTX): En fazla dize uzunluğu sınırı 8 milyon karakterdir.
Giriş kılavuzu
- Desteklenen dosya biçimleri: JPEG, PNG, PDF ve TIFF.
- Desteklenen sayfa sayısı: PDF ve TIFF için en fazla 2.000 sayfa işlenir. Ücretsiz katman aboneleri için yalnızca ilk iki sayfa işlenir.
- Desteklenen dosya boyutu: Dosya boyutu 50 MB'tan küçük olmalı ve boyutlar en az 50 x 50 piksel ve en fazla 10.000 x 10.000 piksel olmalıdır.
Kullanmaya başlayın
Belge Yönetim Bilgileri'ni kullanarak belgelerden metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verileri ayıklayabilirsiniz. Aşağıdaki kaynaklara ihtiyacınız vardır:
- Bir Azure aboneliği. Ücretsiz bir tane oluşturabilirsiniz.
- Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (F0) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Anahtarınızı ve uç noktanızı aldıktan sonra, Belge Yönetim Bilgileri uygulamalarınızı derlemek ve dağıtmak için aşağıdaki geliştirme seçeneklerini kullanabilirsiniz.
Uyarı
Document Intelligence Studio, v3.0 API'leri ve sonraki sürümlerle kullanılabilir.
REST API
Belge Zekası Örnek Etiketleme Aracı
Örnek araç giriş sayfasında, Metin, tablo ve seçim işaretlerini almak için Düzeni Kullan'ı seçin.
Belge Yönetim Bilgileri hizmeti uç noktası alanına, Elde ettiğiniz uç noktayı Belge Yönetim Bilgileri aboneliğinizle yapıştırın.
Anahtar alanına, Belge Yönetim Bilgileri kaynağınızdan aldığınız anahtarı yapıştırın.
Kaynak alanında açılan menüden URL'yi seçin. Örnek belgeyi kullanabilirsiniz:
Getir'i seçin.
Düzeni Çalıştır'ı seçin. Belge Yönetim Bilgileri Örneği Etiketleme aracı, belgeyi analiz etmek için Düzeni Çözümle API'sini çağırır.
Sonuçları görüntüleyin. Vurgulanan ayıklanan metne, algılanan seçim işaretlerine ve algılanan tablolara bakın.
Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler.
| Özellik | Kaynaklar |
|---|---|
| Düzen API'si | • Belge Yönetim Bilgileri etiketleme aracı • REST API • İstemci kitaplığı SDK'sı • Belge Yönetim Bilgileri Docker kapsayıcısı |
Verileri ayıklama
Düzen modeli, belgelerinizdeki yapısal öğeleri ayıklar. Yapısal öğeler burada açıklanmıştır ve aşağıdaki kılavuzda bunları belge girişinizden nasıl ayıkladığınız gösterilmektedir.
Verileri ayıklama
Düzen modeli, belgelerinizdeki yapısal öğeleri ayıklar. Yapısal öğeler burada açıklanmıştır ve aşağıdaki kılavuzda bunları belge girişinizden nasıl ayıkladığınız gösterilmektedir.
Sayfa
Koleksiyon pages , belgedeki sayfaların listesidir. Her sayfa belge içinde sıralı olarak temsil edilir ve sayfanın döndürülmüş olup olmadığını ve genişlik ile yüksekliği (piksel cinsinden boyutlar) gösteren yönlendirme açısını içerir. Model çıkışındaki sayfa birimleri aşağıdaki tabloda gösterildiği gibi hesaplanır.
| Dosya biçimi | Hesaplanan sayfa birimi | Toplam sayfa sayısı |
|---|---|---|
| Görüntüler (JPEG/JPG, PNG, BMP, HEIF) | Her resim = 1 sayfa birimi. | Toplam resim sayısı |
| PDF = 1 sayfa birimindeki her sayfa. | PDF'deki toplam sayfa sayısı | |
| TIFF | TIFF = 1 sayfa birimindeki her görüntü. | TIFF'deki toplam görüntü sayısı |
| Word (DOCX) | En fazla 3.000 karakter = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
| Excel (XLSX) | Her çalışma sayfası = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Toplam çalışma sayfası |
| PowerPoint (PPTX) | Her slayt = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Toplam slayt sayısı |
| HTML | En fazla 3.000 karakter = 1 sayfa birimi. Eklenmiş veya bağlantılı görüntüler desteklenmez. | Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Seçili sayfaları belgelerden ayıklama
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages .
Paragraf
Düzen modeli, koleksiyondaki paragraphs tanımlanan tüm metin bloklarını altında analyzeResultsen üst düzey nesne olarak ayıklar. Bu koleksiyondaki her girdi bir metin bloğunu temsil eder ve ayıklanan metni ve sınırlayıcı content koordinatları içerirpolygon. Bilgiler, span belgenin tam metnini içeren üst düzey content özellik içindeki metin parçasını gösterir.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Paragraf rolü
Makine öğrenmesini temel alan yeni sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Belge Yönetim Bilgileri düzen modeli, koleksiyondaki paragraphs belirli metin bloklarını model tarafından tahmin edilen özelleştirilmiş rolü veya türüyle atar. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için yapılandırılmamış belgelerle paragraf rollerini kullanmak en iyisidir. Aşağıdaki paragraf rolleri desteklenir.
| Tahmin edilen rol | Description | Desteklenen dosya türleri |
|---|---|---|
title |
Sayfadaki ana başlıklar | PDF, Resim, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Sayfadaki bir veya daha fazla alt başlık | PDF, Resim, DOCX, XLSX, HTML |
footnote |
Sayfanın alt kısmındaki metin | PDF, Resim |
pageHeader |
Sayfanın üst kenarına yakın metin | PDF, Görüntü, DOCX |
pageFooter |
Sayfanın alt kenarına yakın metin | PDF, Resim, DOCX, PPTX, HTML |
pageNumber |
Sayfa numarası | PDF, Resim |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Metin, satır ve sözcük
Belge Yönetim Bilgileri'ndeki belge düzeni modeli, yazdırma ve el yazısı stilindeki metinleri satırlar ve sözcükler olarak ayıklar. Koleksiyon, styles ilişkili metne işaret eden yayılma alanlarıyla birlikte algılanırsa satırlar için el yazısıyla yazılmış herhangi bir stil içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.
Word, Excel, PowerPoint ve HTML için, Belge Zekası v4.0 2024-11-30 (GA) düzen modeli tüm eklenmiş metni olduğu gibi ayıklar. Metinler sözcük ve paragraf olarak ayıklanır. Eklenmiş görüntüler desteklenmez.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
El yazısı stili
Yanıt, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Daha fazla bilgi için bkz. El yazısı dil desteği. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin styles bir parçası olarak yazı tipi/stil sonucunu da alırsınız.
Seçim işareti
Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Her sayfa için ayıklanan seçim işaretleri pages koleksiyonu içinde görünür. Sınırlayıcı polygon, confidence ve seçim state (selected/unselected) içeriyor. Metin gösterimi (yani :selected: ve :unselected) başlangıç dizini (offset) olarak da eklenir ve length belgenin tam metnini içeren üst düzey content özelliğe başvurur.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
Tablo
Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli veriler içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı çokgeni olan her hücre, alanın olarak columnHeader tanınıp tanınmadığı bilgisinin yanı sıra çıkıştır.
Model, döndürülmüş tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için, model başlangıç dizinini span (offset) içeren bilgileri verir. Model, belgedeki tam metni içeren üst düzey içeriğin içinde length çıktısını da üretir.
Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:
- Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
- Veri tablo biçiminde değilse iki boyutlu bir ızgaraya sığabilir mi?
- Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için, BELGE Zekası'na göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
- Özel modeller oluşturuyorsanız bkz. Tablosal alanlar . Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.
Uyarı
Giriş dosyası XLSX ise tablo analizi desteklenmez. Document Intelligence v4.0 2024-11-30 (GA), yalnızca temel içeriği kapsayan ve ilişkili açıklamalı alt yazıları ve dipnotları dışlayan şekiller ve tablolar için sınırlayıcı bölgeleri destekler.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
Ek Açıklamalar
Düzen modeli, belgelerdeki denetimler ve çaprazlar gibi ek açıklamaları ayıklar. Yanıt, güvenilirlik puanı ve sınırlayıcı çokgen ile birlikte ek açıklama türünü içerir.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
Doğal okuma sırası çıktısı (yalnızca Latin)
Sorgu parametresiyle readingOrder metin satırlarının çıkış sırasını belirtebilirsiniz. Aşağıdaki örnekte gösterildiği gibi daha insan dostu bir okuma sırası çıkışı için kullanın natural . Bu özellik yalnızca Latin dilleri için desteklenir.
Metin ayıklama için sayfa numarası veya aralık seçme
Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages . Aşağıdaki örnekte, her iki durum, tüm sayfalar (1-10) ve seçili sayfalar (3-6) için metin ayıklanmış 10 sayfalı bir belge gösterilmektedir.
Analiz Düzeni Sonucunu Al işlemi
İkinci adım, Düzeni Çözümle Sonucunu Al işlemini çağırmaktır. Bu işlem, işlemin oluşturduğu Sonuç Kimliğini Analyze Layout girdi olarak alır. Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.
| Alan | Tür | Olası değerler |
|---|---|---|
| durum | String |
notStarted: Çözümleme işlemi başlatılmamış.running: Çözümleme işlemi devam ediyor.failed: Çözümleme işlemi başarısız oldu.succeeded: Çözümleme işlemi başarılı oldu. |
succeeded değerini döndürene kadar bu işlemi yinelemeli olarak çağırmaya devam edin. Saniye başına istek oranını aşmamak için üç ila beş saniyelik bir aralık kullanın.
Durum alanında succeeded değer olduğunda, JSON yanıtı ayıklanan düzeni, metni, tabloları ve seçim işaretlerini içerir. Ayıklanan veriler ayıklanan metin satırlarını ve sözcükleri, sınırlayıcı kutuları, el yazısı göstergeli metin görünümünü, tabloları ve seçili/seçili olmayan işaretli seçim işaretlerini içerir.
Metin satırları için el yazısı sınıflandırma (yalnızca Latin)
Yanıt, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.
Örnek JSON çıkışı
İşlemin yanıtı, belgenin Get Analyze Layout Result tüm bilgilerin ayıklandığı yapılandırılmış bir gösterimidir.
Örnek belge dosyasına ve yapılandırılmış çıktı örnek düzen çıkışına bakın.
JSON çıkışının iki bölümü vardır:
- Düğüm,
readResultstanınan tüm metni ve seçim işaretini içerir. Metin sunu hiyerarşisi sayfa, satır ve sonra tek tek sözcüklerdir. - Düğüm
pageResults, sınırlayıcı kutularıyla ayıklanan tabloları ve hücreleri, güveni ve alandaki satırlara ve sözcüklere başvuruyureadResultsiçerir.
Örnek çıkış
Metin
Düzen API'si, birden çok metin açısına ve rengine sahip belgelerden ve görüntülerden metin ayıklar. Belge, faks, basılı ve/veya el yazısı (yalnızca İngilizce) metin ve karma mod fotoğraflarını kabul eder. Metin, satırlar, sözcükler, sınırlayıcı kutular, güvenilirlik puanları ve stil (el yazısı veya diğer) hakkında sağlanan bilgilerle ayıklanır. Tüm metin bilgileri JSON çıkışının bölümüne eklenir readResults .
Üst bilgi içeren tablolar
Düzen API'si, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Belgeleri tarayabilir, fotoğraflayabilir veya dijital ortama aktarabilirsiniz. Tablolar, birleştirilmiş hücreler veya sütunlar, kenarlıklı ya da kenarlıksız ve farklı açılarla karmaşık olabilir.
Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Her hücre, sınırlayıcı kutusuyla birlikte ve bu alanın bir üst bilginin parçası olarak tanınıp tanınmadığı bilgisiyle çıktıda verilir. Model tarafından tahmin edilen üst bilgi hücreleri birden çok satıra yayılabilir ve tablodaki ilk satırlar olmayabilir. Ayrıca, döndürülmüş tablolarla da çalışırlar. Her tablo hücresi, bölümdeki tek tek sözcüklere readResults başvurular içeren tam metni de içerir.
Seçim işaretleri (belgeler)
Düzen API'si belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutu, güven düzeyi ve durumu (seçili/seçilmemiş) içerir. Seçim işareti bilgileri JSON çıkışının readResults bölümünde ayıklanır.
Geçiş kılavuzu
- Uygulamalarınızda ve iş akışlarınızda v3.1 sürümünü kullanmayı öğrenmek için Belge Zekası v3.1 geçiş kılavuzundaki adımları izleyin.
İlgili içerik
- Document Intelligence Studio ile kendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
- Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturun.
- Belge Zekası Örnek Etiketleme aracıylakendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
- Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturun.