Belge Zekası düzen modeli nedir?

2025-05-05

Bu içerik şunlar için geçerlidir:v4.0 (GA) | Önceki sürümler:v3.1 (GA)v3.0 (GA)v2.1 (GA)

Belge Zekası düzen modeli, Belge Zekası bulutunda kullanılabilen gelişmiş bir makine öğrenmesi tabanlı belge analizi API'sidir. Belgeleri çeşitli biçimlerde almanıza ve belgelerin yapılandırılmış veri gösterimlerini döndürmenize olanak tanır. Metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerimizin gelişmiş bir sürümünü derin öğrenme modelleriyle birleştirir.

Belge yapısı düzen analizi

Belge yapısı düzen analizi, ilgilendiğiniz bölgeleri ve aralarındaki ilişkileri ayıklamak için bir belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Belge düzeninde iki tür rol vardır:

Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.

Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.

Belge düzeni örneğinin çizimi.

Dağıtım seçenekleri

Belge Yönetim Bilgileri v4.0: 2024-11-30 (GA) aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:

Özellik	Kaynaklar	Model Kimliği
Düzen modeli	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	önceden oluşturulmuş düzen

Desteklenen diller

Desteklenen dillerin tam listesi için bkz . Dil Desteği— belge çözümleme modelleri .

Desteklenen dosya türleri

Document Intelligence v4.0: 2024-11-30 (GA) düzen modeli aşağıdaki dosya biçimlerini destekler:

Örnek	PDF	Resim: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Tasarım Düzeni	✔	✔	✔

Giriş gereksinimleri

En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.
Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .
Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
- Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.
- Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . (GA) için 2024-11-30, eğitim verilerinin toplam boyutu 2 GB ve en fazla 10.000 sayfadır.

Model kullanımı, kotalar ve hizmet sınırları hakkında daha fazla bilgi için bkz. hizmet sınırları.

Düzen modelini kullanmaya başlama

Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Belge Yönetim Bilgileri kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız vardır:

Azure aboneliği: Ücretsiz olarak bir abonelik oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (F0) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.

Anahtarınızı ve uç noktanızı aldıktan sonra, Belge Zekası uygulamalarınızı derlemek ve dağıtmak için aşağıdaki geliştirme seçeneklerini kullanın:

Veri ayıklama

Düzen modeli, belgelerinizdeki yapısal öğeleri ayıklar. İzleyebileceğiniz bu yapısal öğelerin açıklamaları ve bunları belge girişinizden nasıl ayıkladığınıza ilişkin yönergeler verilmiştir:

Sayfalar
Paragraflar
Metin, satır ve sözcükler
Seçim işaretleri
Tablolar
Çıkış yanıtını Markdown'a dönüştür
Figürler
Bölümler

Document Intelligence Studio'da örnek düzen belge analizini çalıştırın, ardından sonuçlar sekmesine gidin ve tam JSON çıkışına erişin.

Document Intelligence Studio'da sonuçlar JSON çıkış sekmesinin ekran görüntüsü.

Sayfalar

Sayfalar koleksiyonu, belgedeki sayfaların listesidir. Her sayfa belge içinde sıralı olarak temsil edilir ve sayfanın döndürülmüş olup olmadığını ve genişlik ile yüksekliği (piksel cinsinden boyutlar) gösteren yönlendirme açısını içerir. Model çıkışındaki sayfa birimleri gösterildiği gibi hesaplanır:

Dosya biçimi	Hesaplanan sayfa birimi	Toplam sayfa sayısı
Görüntüler (JPEG/JPG, PNG, BMP, HEIF)	Her resim = 1 sayfa birimi	Toplam resim sayısı
PDF	PDF ' deki her sayfa = 1 sayfa birimi	PDF'deki toplam sayfa sayısı
TIFF	TIFF formatında her resim = 1 sayfa birimi	TIFF'deki toplam görüntü sayısı
Word (DOCX)	En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez	Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı
Excel (XLSX)	Her çalışma sayfası = 1 sayfa birimi, eklenmiş veya bağlı görüntüler desteklenmez	Toplam çalışma sayfası
PowerPoint (PPTX)	Her slayt = 1 sayfalık birim, eklenmiş veya bağlı görüntüler desteklenmez	Toplam slayt sayısı
HTML	En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez	Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı

Örnek kod
Çıktı

# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

GitHub'da örnekleri görüntüleyin.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Seçili sayfaları ayıklama

Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages .

Paragraflar

Düzen modeli, paragraphs koleksiyonundaki tanımlanan tüm metin bloklarını, analyzeResults altında en üst düzey nesne olarak çıkartır. Bu koleksiyondaki her girdi bir metin bloğunu ve .. /, ayıklanan metni olarakcontentve sınırlayıcı polygon koordinatları içerir. Bilgiler, span belgenin tam metnini içeren en üst düzey content özellik içindeki metin parçasına işaret eder.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Paragraf rolleri

Yeni makine öğrenmesi tabanlı sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Belge Zekası Düzeni modeli, koleksiyondaki paragraphs belirli metin bloklarını model tarafından tahmin edilen özel rol veya türleriyle ilişkilendirir. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için yapılandırılmamış belgelerle paragraf rollerini kullanmak en iyisidir. Aşağıdaki paragraf rolleri desteklenir:

Tahmin edilen rol	Açıklama	Desteklenen dosya türleri
`title`	Sayfadaki ana başlıklar	pdf, image, docx, pptx, xlsx, html
`sectionHeading`	Sayfadaki bir veya daha fazla alt başlık	pdf, image, docx, xlsx, html
`footnote`	Sayfanın alt kısmındaki metin	pdf, resim
`pageHeader`	Sayfanın üst kenarına yakın metin	pdf, resim, docx
`pageFooter`	Sayfanın alt kenarına yakın metin	pdf, image, docx, pptx, html
`pageNumber`	Sayfa numarası	pdf, resim

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Metin, satır ve sözcükler

Belge Zekası'ndaki belge düzeni modeli, yazdırılmış ve el yazısı stilindeki metinleri lines ve words olarak ayıklar. Koleksiyon, styles algılanırsa satırlar için el yazısı stilini ve ilişkili metne işaret eden aralıkları içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.

Microsoft Word, Excel, PowerPoint ve HTML için, Belge Zekası v4.0 2024-11-30 (GA) Düzeni modeli tüm eklenmiş metni olduğu gibi ayıklar. Metinler sözcük ve paragraf olarak ayıklanır. Eklenmiş görüntüler desteklenmez.

Örnek kod
Çıktı

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

GitHub'da örnekleri görüntüleyin.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Metin satırları için el yazısı stili

Yanıt .. /, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Daha fazla bilgi için. Bkz. El yazısı dil desteği. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin bir parçası styles olarak yazı tipi/stil sonucunu da alırsınız.

Seçim işaretleri

Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Her sayfa için ayıklanan seçim işaretleri pages koleksiyonu içinde görünür. Sınırlayıcı polygon, confidence ve seçim state (selected/unselected) içeriyor. Metin gösterimi (yani :selected: ve :unselected) başlangıç dizini (offset) olarak da eklenir ve length belgenin tam metnini içeren en üst düzey content özelliğe başvurur.

Örnek kod
Çıktı

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

GitHub'da örnekleri görüntüleyin.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tablolar

Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli verileri içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Elde edilen tablo bilgileri, sütun ve satır sayılarını, satır kapsamasını ve sütun kapsamasını içerir. Sınırlayıcı çokgeni olan her hücre, alanın bir columnHeader olarak tanınıp tanınmadığını belirten bilgi ile birlikte çıkış edilir. Model, döndürülmüş tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için model, span bilgisini, başlangıç dizini (offset) içerecek şekilde sunar. Model, belgedeki tam metni içeren üst düzey içeriğin içinde length çıktısını da üretir.

Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:

Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
Veri tablo biçiminde değilse iki boyutlu bir ızgaraya sığabilir mi?
Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için Belge Yönetim Bilgileri'ne göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
Özel modeller oluşturuyorsanız Tablosal alanlara bakın. Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.

Uyarı

Giriş dosyası XLSX ise tablo analizi desteklenmez.
2024-11-30 (GA) için, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları hariç tutar.

Örnek kod
Çıktı

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

GitHub'da örnekleri görüntüleyin.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Markdown biçimine çıkış yanıtı

Düzen API'si, ayıklanan metnin çıkışını markdown biçiminde verebilir. Markdown'da çıkış biçimini belirtmek için öğesini outputContentFormat=markdown kullanın. Markdown içeriği, content bölümünün bir parçası olarak çıktı alınır.

Uyarı

v4.0 2024-11-30 (GA) için, birleştirilmiş hücrelerin, çok satırlı üst bilgilerin vb. işlenmesini sağlamak için tabloların gösterimi HTML tabloları olarak değiştirilir. İlgili bir diğer değişiklik de :selected: ve :unselected: yerine Unicode onay kutusu karakterleri ☒ ve ☐ seçim işaretleri kullanmaktır. Bu güncelleştirme, seçim işareti alanlarının içeriğinin kapsamları üst düzey kapsamda Unicode karakterlerine atıfta bulunduğu halde :selected: içerdiği anlamına gelir. Markdown öğelerinin tam tanımı için Markdown Çıkış Biçimi'ne bakın.

Örnek kod
Çıktı

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

GitHub'da örnekleri görüntüleyin.

PageHeader="This is the header of the document."

This is title
===
# 1\. Text
Latin refers to an ancient Italic language originating in the region of Latium in ancient Rome.
# 2\. Page Objects
## 2.1 Table
Here's a sample table below, designed to be simple for easy understand and quick reference.
| Name | Corp | Remark |
| - | - | - |
| Foo | | |
| Bar | Microsoft | Dummy |
Table 1: This is a dummy table
## 2.2. Figure
<figure>
<figcaption>

Figure 1: Here is a figure with text
</figcaption>

![](figures/0)
FigureContent="500 450 400 400 350 250 200 200 200- Feb"
</figure>

# 3\. Others
Al Document Intelligence is an Al service that applies advanced machine learning to extract text, key-value pairs, tables, and structures from documents automatically and accurately:
    :selected:
clear
    :selected:
precise
    :unselected:
vague
    :selected:
coherent
    :unselected:
Incomprehensible
Turn documents into usable data and shift your focus to acting on information rather than compiling it. Start with prebuilt models or create custom models tailored to your documents both on premises and in the cloud with the Al Document Intelligence studio or SDK.
Learn how to accelerate your business processes by automating text extraction with Al Document Intelligence. This webinar features hands-on demos for key use cases such as document processing, knowledge mining, and industry-specific Al model customization.
PageFooter="This is the footer of the document."
PageFooter="1 | Page"

Şekiller

Belgelerdeki şekiller (grafikler, resimler) metin içeriğinin tamamlanması ve geliştirilmesinde önemli bir rol oynar ve karmaşık bilgilerin anlaşılmasına yardımcı olan görsel gösterimler sağlar. Düzen modeli tarafından algılanan şekiller nesnesinin temel özellikleri boundingRegions vardır (belge sayfalarındaki şeklin uzamsal konumları, sayfa numarası ve şeklin sınırını özetleyen çokgen koordinatlar dahil), spans (şekille ilgili metin aralıklarının ayrıntıları, belgenin metni içindeki uzaklıklarını ve uzunluklarını belirtme. Bu bağlantı, şeklin ilgili metin bağlamıyla, elements (belgedeki şekille ilgili veya açıklamalı metin öğelerinin veya paragrafların tanımlayıcıları) ve caption varsa ilişkilendirmeye yardımcı olur.

İlk analiz işlemi sırasında output=figures belirtildiğinde, hizmet aracılığıyla /analyeResults/{resultId}/figures/{figureId}erişilebilen tüm algılanan şekiller için kırpılmış görüntüler oluşturur. FigureId her şekil nesnesine dahil edilir ve sayfa başına bir taneye sıfırlanan {pageNumber}.{figureIndex}, figureIndex belgelenmemiş bir kurala göre düzenlenmiştir.

Uyarı

v4.0 2024-11-30 (GA) için, şekiller ve tablolar için sınırlayıcı bölgeler yalnızca temel içeriği kapsar ve ilişkili açıklamalı alt yazıları ve dipnotları hariç tutar.

Örnek kod
Çıktı

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

GitHub'da örnekleri görüntüleyin.

{
    "figures": [
        {
        "id": "{figureId}",
        "boundingRegions": [],
        "spans": [],
        "elements": [
            "/paragraphs/15",
            ...
        ],
        "caption": {
            "content": "Here is a figure with some text",
            "boundingRegions": [],
            "spans": [],
            "elements": [
            "/paragraphs/15"
            ]
        }
        }
    ]
}

Belge şekillerinin örneklerinin ekran görüntüsü.

Bölümler

Hiyerarşik belge yapısı analizi, kapsamlı belgelerin düzenlenmesi, anlaşılması ve işlenmesinde çok önemlidir. Bu yaklaşım, kavramayı artırmak, gezinmeyi kolaylaştırmak ve bilgi alımını geliştirmek için uzun belgeleri sembolik olarak segmentlere ayırmak için çok önemlidir. Belge oluşturucu yapay zekada alma artırılmış nesil (RAG) ortaya çıkması, hiyerarşik belge yapısı analizinin öneminin altını çizer. Düzen modeli, çıkıştaki bölümleri ve alt bölümleri destekler ve bu da her bölümdeki bölümlerin ve nesnenin ilişkisini tanımlar. Hiyerarşik yapı her bölümde korunur elements . Markdown biçiminde bölümleri ve alt bölümleri kolayca almak için çıkış yanıtını markdown formatına dönüştürme işlevini kullanabilirsiniz.

Örnek kod
Çıktı

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

GitHub'da örnekleri görüntüleyin.

{
    "sections": [
        {
        "spans": [],
        "elements": [
            "/paragraphs/0",
            "/sections/1",
            "/sections/2",
            "/sections/5"
        ]
        },
...
}

Belge bölümleri örneklerinin ekran görüntüsü.

Bu içerik şunlar için geçerlidir:v3.1 (GA) | En son sürüm:v4.0 (GA) | Önceki sürümler:v3.0v2.1

Bu içerik şunlar için geçerlidir:onay işaretiv3.0 (GA) | En son sürümler:mor onay işaretiv4.0 (GA)mor onay işaretiv3.1 | blue-checkmarkv2.1

Bu içerik şunlar için geçerlidir:En son sürüm: | v4.0 (GA)

Belge düzeni analizi

Geometrik roller: Metin, tablolar, şekiller ve seçim işaretleri geometrik rollere örnektir.
Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler, metinlerin mantıksal rollerine örnektir.

Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.

Belge düzeni örneğinin çizimi.

Desteklenen diller ve yerel ayarlar

Desteklenen dillerin tam listesi için Dil Desteği— belge çözümleme modelleri sayfamıza bakın.

Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:

Özellik	Kaynaklar
Düzen modeli	• Belge Yönetim Bilgileri etiketleme aracı • • •

Giriş kılavuzu

Desteklenen dosya biçimleri:

Örnek	PDF	Resim: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Okundu	✔	✔	✔
Tasarım Düzeni	✔	✔
Genel Belge	✔	✔
Önceden oluşturulmuş	✔	✔
Özel çıkarım	✔	✔
Özel sınıflandırma	✔	✔	✔

En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.
Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .
Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
- Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.
- Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . (GA) için 2024-11-30, eğitim verilerinin toplam boyutu 2 GB ve en fazla 10.000 sayfadır.

Giriş kılavuzu

Desteklenen dosya biçimleri: JPEG, PNG, PDF ve TIFF.
Desteklenen sayfa sayısı: PDF ve TIFF için en fazla 2.000 sayfa işlenir. Ücretsiz katman aboneleri için yalnızca ilk iki sayfa işlenir.
Desteklenen dosya boyutu: Dosya boyutu 50 MB'tan az ve boyutlar en az 50 x 50 piksel ve en fazla 10.000 x 10.000 piksel olmalıdır.

Kullanmaya başlayın

Azure aboneliği: Ücretsiz olarak bir abonelik oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (F0) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.

Azure portalında anahtarların ve uç nokta konumunun ekran görüntüsü.

Anahtarınızı ve uç noktanızı aldıktan sonra, Belge Zekası uygulamalarınızı derlemek ve dağıtmak için aşağıdaki geliştirme seçeneklerini kullanabilirsiniz:

Uyarı

Document Intelligence Studio, v3.0 API'leri ve sonraki sürümlerle kullanılabilir.

REST API

Belge Yönetim Bilgileri v2.1 (Form Tanıma)

Belge Zekası Örnek Etiketleme Aracı

Belge Yönetim Bilgileri örnek aracına gidin.
Örnek araç giriş sayfasında, Metin, tablo ve seçim işaretlerini almak için Düzeni Kullan'ı seçin.
Belge Yönetim Bilgileri hizmeti uç noktası alanına, Elde ettiğiniz uç noktayı Belge Yönetim Bilgileri aboneliğinizle yapıştırın.
Anahtar alanına, Belge Yönetim Bilgileri kaynağınızdan aldığınız anahtarı yapıştırın.
Kaynak alanında, açılan menüden URL'yi seçin Örnek belgemizi kullanabilirsiniz:
- Örnek belge.
- Getir düğmesini seçin.
Düzeni Çalıştır'ı seçin. Belge Zekası Örnek Etiketleme aracı, belgeyi analiz etmek için Analyze Layout API'sini çağırır.
Sonuçları görüntüleme - vurgulanan ayıklanan metinlere, algılanan seçim işaretlerine ve algılanan tablolara bakın.

Document Intelligence v2.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:

Özellik	Kaynaklar
Düzen API'si	• Belge Yönetim Bilgileri etiketleme aracı • • •

Verileri ayıklama

Sayfa
Paragraf
Metin, satır ve sözcük
Seçim işareti
Masa
Doğal okuma sırası
Sayfa numarasını veya aralığını seçin

Sayfa

Sayfalar koleksiyonu, belgedeki sayfaların listesidir. Her sayfa, belge içinde sıralı olarak temsil edilir ve .. /, sayfanın döndürülmüş olup olmadığını ve genişlik ve yüksekliği (piksel cinsinden boyutlar) gösteren yönlendirme açısını içerir. Model çıkışındaki sayfa birimleri gösterildiği gibi hesaplanır:

Dosya biçimi	Hesaplanan sayfa birimi	Toplam sayfa sayısı
Görüntüler (JPEG/JPG, PNG, BMP, HEIF)	Her resim = 1 sayfa birimi	Toplam resim sayısı
PDF	PDF ' deki her sayfa = 1 sayfa birimi	PDF'deki toplam sayfa sayısı
TIFF	TIFF formatında her resim = 1 sayfa birimi	TIFF'deki toplam görüntü sayısı
Word (DOCX)	En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez	Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı
Excel (XLSX)	Her çalışma sayfası = 1 sayfa birimi, eklenmiş veya bağlı görüntüler desteklenmez	Toplam çalışma sayfası
PowerPoint (PPTX)	Her slayt = 1 sayfalık birim, eklenmiş veya bağlı görüntüler desteklenmez	Toplam slayt sayısı
HTML	En fazla 3.000 karakter = 1 sayfa birimi, eklenmiş veya bağlantılı görüntüler desteklenmez	Her biri en fazla 3.000 karakterden oluşan toplam sayfa sayısı

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Örnek kod
Çıktı

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

GitHub'da örnekleri görüntüleyin.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Seçili sayfaları belgelerden ayıklama

Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages .

Paragraf


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Paragraf rolü

Tahmin edilen rol	Açıklama	Desteklenen dosya türleri
`title`	Sayfadaki ana başlıklar	pdf, image, docx, pptx, xlsx, html
`sectionHeading`	Sayfadaki bir veya daha fazla alt başlık	pdf, image, docx, xlsx, html
`footnote`	Sayfanın alt kısmındaki metin	pdf, resim
`pageHeader`	Sayfanın üst kenarına yakın metin	pdf, resim, docx
`pageFooter`	Sayfanın alt kenarına yakın metin	pdf, image, docx, pptx, html
`pageNumber`	Sayfa numarası	pdf, resim

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Metin, satır ve sözcük

Belge Zekası'ndaki belge düzeni modeli, yazdırılmış ve el yazısı stilindeki metinleri lines ve words olarak ayıklar. Koleksiyon styles, ilişkili metne işaret eden aralıklarla birlikte tespit edilirse satırlar için herhangi bir el yazısı stilini içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Örnek kod
Çıktı

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

GitHub'da örnekleri görüntüleyin.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

El yazısı stili

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Yazı tipi/stil eklentisi özelliğini etkinleştirirseniz, nesnenin bir parçası styles olarak yazı tipi/stil sonucunu da alırsınız.

Seçim işareti

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Örnek kod
Çıktı

# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

GitHub'da örnekleri görüntüleyin.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tablo

Belge Zekası balya ayıklama özelliğini kullanırken göz önünde bulundurmanız gereken birkaç faktör şunlardır:

Ayıklamak istediğiniz veriler tablo olarak sunuluyor mu ve tablo yapısı anlamlı mı?
Veri tablo biçiminde değilse iki boyutlu bir ızgaraya sığabilir mi?
Tablolarınız birden çok sayfaya yayılsın mı? Bu durumda, tüm sayfaları etiketlemek zorunda kalmamak için Belge Yönetim Bilgileri'ne göndermeden önce PDF'yi sayfalara bölün. Analizden sonra sayfaları tek bir tabloya işleyin.
Özel modeller oluşturuyorsanız Tablosal alanlara bakın. Dinamik tabloların her sütun için değişken sayıda satırı vardır. Sabit tabloların her sütun için sabit sayıda satırı vardır.

Uyarı

Giriş dosyası XLSX ise tablo analizi desteklenmez.
Belge Zekası v4.0 2024-11-30 (GA), yalnızca temel içeriği kapsayan ve ilişkili açıklamalı alt yazıları ve dipnotları dışlayan şekiller ve tablolar için sınırlayıcı bölgeleri destekler.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Örnek kod
Çıktı

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

GitHub'da örnekleri görüntüleyin.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Ek Açıklamalar

Düzen modeli, belgelerdeki işaretler ve çarpılar gibi ek açıklamaları ayıklar. Yanıt .. /, güvenilirlik puanı ve sınırlayıcı çokgen ile birlikte ek açıklama türünü içerir.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Doğal okuma sırası çıktısı (yalnızca Latin)

Sorgu parametresiyle readingOrder metin satırlarının çıkış sırasını belirtebilirsiniz. Aşağıdaki örnekte gösterildiği gibi daha insan dostu bir okuma sırası çıkışı için kullanın natural . Bu özellik yalnızca Latin dilleri için desteklenir.

Metin ayıklama için sayfa numarası veya aralık seçme

Çok sayfalı büyük belgeler için, belirli sayfa numaralarını veya metin ayıklama için sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın pages . Aşağıdaki örnekte, tüm sayfalar (1-10) ve seçili sayfalar (3-6) olmak üzere her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir.

Seçili sayfa çıktısı düzen modelinin ekran görüntüsü.

Analiz Düzeni Sonucunu Al işlemi

İkinci adım, Düzeni Çözümle Sonucunu Al işlemini çağırmaktır. Bu işlem, işlemin oluşturduğu Sonuç Kimliğini Analyze Layout girdi olarak alır. Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.

Alan	Tür	Olası değerler
durum	String	`notStarted`: Çözümleme işlemi başlatılmamış. `running`: Çözümleme işlemi devam ediyor. `failed`: Çözümleme işlemi başarısız oldu. `succeeded`: Çözümleme işlemi başarılı oldu.

succeeded değerini döndürene kadar bu işlemi yinelemeli olarak çağırmaya devam edin. Saniye başına istek (RPS) hızını aşmamak için 3 ila 5 saniyelik bir aralık kullanın.

Durum alanında succeeded değer olduğunda JSON yanıtı .. /ayıklanan düzeni, metni, tabloları ve seçim işaretlerini içerir. Ayıklanan veriler../, ayıklanan metin satırlarını ve sözcükleri, sınırlayıcı kutuları, el yazısı göstergeli metin görünümünü, tabloları ve seçili olup olmadığı belirtilen seçim işaretlerini içerir.

Metin satırları için el yazısı sınıflandırma (yalnızca Latin)

Yanıt .. /, her metin satırının el yazısı stilinde olup olmadığını ve güvenilirlik puanını sınıflandırmayı içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.

'düzen' modeli el yazısı sınıflandırma işleminin ekran görüntüsü.

Örnek JSON çıkışı

Get Analyze Layout Result işlemine verilen yanıt, belgenin tüm bilgilerin ayıklandığı yapılandırılmış bir gösterimidir. Örnek belge dosyası ve yapılandırılmış çıktı örnek düzen çıktısı için buraya bakın.

JSON çıkışının iki bölümü vardır:

readResults düğüm, tanınan metnin ve seçim işaretinin tümünü içerir. Metin sunu hiyerarşisi sayfa, satır ve sonra tek tek sözcüklerdir.
pageResults düğüm, sınırlayıcı kutularıyla ayıklanan tabloları ve hücreleri, güven değeri ve "readResults" alanındaki satır ve sözcüklere bağlantı sağlayan bir referans içerir.

Örnek Çıkış

Metin

Düzen API'si, birden çok metin açısına ve rengine sahip belgelerden ve görüntülerden metin ayıklar. Belge ve faksların fotoğraflarını, el yazısı ve/veya basılı (yalnızca İngilizce) metinleri ve karışık modları kabul eder. Metin, satırlar, sözcükler, sınırlayıcı kutular, güvenilirlik puanları ve stil (el yazısı veya diğer) hakkında sağlanan bilgilerle ayıklanır. Tüm metin bilgileri JSON çıkışının bölümüne eklenir readResults .

Üst bilgi içeren tablolar

Düzen API'si, JSON çıkışının pageResults bölümündeki tabloları ayıklar. Belgeler taranabilir, fotoğraflanabilir veya dijitalleştirilebilir. Tablolar, birleştirilmiş hücreler veya sütunlar, kenarlıklı ya da kenarlıksız ve farklı açılarla karmaşık olabilir. Elde edilen tablo bilgileri, sütun ve satır sayılarını, satır kapsamasını ve sütun kapsamasını içerir. Her hücre, sınırlayıcı kutusuyla birlikte ve bu alanın bir üst bilginin parçası olarak tanınıp tanınmadığı bilgisiyle çıktıda verilir. Modelin tahmin ettiği başlık hücreleri birden fazla satıra yayılabilir ve zorunlu olarak tablodaki ilk satırlar değildir. Ayrıca, döndürülmüş tablolarla da çalışırlar. Her bir tablo hücresi, readResults bölümündeki bireysel sözcüklere yapılan atıflarla tam metni içerir.

Tablolar örneği

Seçim işaretleri (belgeler)

Düzen API'si belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutu, güven düzeyi ve durumu (seçili/seçilmemiş) içerir. Seçim işareti bilgileri JSON çıkışının readResults bölümünde ayıklanır.

Geçiş kılavuzu

Uygulamalarınızda ve iş akışlarınızda v3.1 sürümünü kullanmayı öğrenmek için Belge Zekası v3.1 geçiş kılavuzumuzu izleyin.

Sonraki adımlar

Document Intelligence Studio ile kendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.

GitHub'da daha fazla örnek bulun.

GitHub'da daha fazla örnek bulun.

Belge Zekası Örnek Etiketleme aracıyla kendi formlarınızı ve belgelerinizi işlemeyi öğrenin.
Belge Zekası hızlı başlangıcını tamamlayın ve seçtiğiniz geliştirme dilinde bir belge işleme uygulaması oluşturmaya başlayın.

Aracılığıyla paylaş

Belge Zekası düzen modeli nedir?

Belge yapısı düzen analizi

Dağıtım seçenekleri

Desteklenen diller

Desteklenen dosya türleri

Giriş gereksinimleri

Düzen modelini kullanmaya başlama

Veri ayıklama

Sayfalar

Seçili sayfaları ayıklama

Paragraflar

Paragraf rolleri

Metin, satır ve sözcükler

Metin satırları için el yazısı stili

Seçim işaretleri

Tablolar

Markdown biçimine çıkış yanıtı

Şekiller

Bölümler

Belge düzeni analizi

Desteklenen diller ve yerel ayarlar

Giriş kılavuzu

Giriş kılavuzu

Kullanmaya başlayın

REST API

Belge Zekası Örnek Etiketleme Aracı

Verileri ayıklama

Verileri ayıklama

Sayfa

Seçili sayfaları belgelerden ayıklama

Paragraf

Paragraf rolü

Metin, satır ve sözcük

El yazısı stili

Seçim işareti

Tablo

Ek Açıklamalar

Doğal okuma sırası çıktısı (yalnızca Latin)

Metin ayıklama için sayfa numarası veya aralık seçme

Analiz Düzeni Sonucunu Al işlemi

Metin satırları için el yazısı sınıflandırma (yalnızca Latin)

Örnek JSON çıkışı

Örnek Çıkış

Metin

Üst bilgi içeren tablolar

Seçim işaretleri (belgeler)

Geçiş kılavuzu

Sonraki adımlar

Geri Bildirim

Ek kaynaklar