Apa itu model tata letak Kecerdasan Dokumen?

2025-05-05

Informasi ini berlaku untuk:tanda centangv4.0 (GA)Versi sebelumnya:tanda centang birutanda centang biruv3.1 (GA)tanda centang biruv3.0 (GA)v2.1 (GA)

Model tata letak Kecerdasan Dokumen adalah API analisis dokumen berbasis pembelajaran mesin tingkat lanjut yang tersedia di cloud Kecerdasan Dokumen. Ini memungkinkan Anda untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. API menggabungkan versi yang disempurnakan dari kemampuan Pengenalan Karakter Optik (OCR) kami yang canggih dengan model pembelajaran mendalam untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.

Analisis tata letak struktur dokumen

Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang diminati dan hubungan antar-hubungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:

Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.

Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.

Ilustrasi contoh tata letak dokumen.

Opsi pengembangan

Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung alat, aplikasi, dan pustaka berikut:

Fitur	Sumber	ID Model
Model tata letak	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	tata letak bawaan

Bahasa yang didukung

Lihat Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Jenis file yang didukung

Model tata letak Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung format file berikut:

Modél	PDF	Gambar: `JPEG/JPG`, , `PNGBMP`, `TIFF`, ,`HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Tata letak	✔	✔	✔

Persyaratan input

Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan 8 teks dengan ukuran sekitar 150 titik per inci (DPI).
Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
- Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.
- Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Untuk informasi selengkapnya tentang penggunaan model, kuota, dan batas layanan, lihatbatas layanan.

Mulai menggunakan model Tata Letak

Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur diekstrak dari dokumen menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:

Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Setelah Anda mengambil kunci dan titik akhir, gunakan opsi pengembangan berikut untuk membangun dan menyebarkan aplikasi Kecerdasan Dokumen Anda:

Ekstraksi data

Model tata letak mengekstrak elemen struktural dari dokumen Anda. Untuk mengikuti adalah deskripsi elemen struktural ini dengan panduan tentang cara mengekstraknya dari input dokumen Anda:

Halaman
Paragraf
Teks, baris, dan kata
Tanda pilihan
Tabel
Hasil keluaran untuk markdown
Angka
Bagian

Jalankan analisis dokumen tata letak sampel dalam Document Intelligence Studio, lalu navigasikan ke tab hasil dan akses output JSON lengkap.

Cuplikan layar hasil tab output JSON di Studio Kecerdasan Dokumen.

Halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file	Unit halaman terkomputasi	Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF)	Setiap gambar = 1 unit halaman	Total gambar
PDF	Setiap halaman dalam PDF = 1 unit halaman	Total halaman dalam PDF
TIFF	Setiap gambar dalam TIFF = 1 unit halaman	Jumlah gambar di TIFF
Word (DOCX)	Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Jumlah total halaman, masing-masing hingga 3.000 karakter
Excel (XLSX)	Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Total jumlah lembar kerja
PowerPoint (PPTX)	Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Total slide
HTML	Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Jumlah total halaman, masing-masing hingga 3.000 karakter

Contoh kode
Hasil

# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Lihat sampel di GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Mengekstrak halaman yang dipilih

Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.

Paragraf

Model Tata Letak mengekstrak semua blok teks yang diidentifikasi dalam koleksi paragraphs sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan mencakup teks yang diekstrak sebagai content serta koordinat pembatas polygon. Informasi spanmenunjuk ke fragmen teks dalam properti content tingkat atas yang berisi teks lengkap dari dokumen.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Fungsi paragraf

Deteksi objek halaman berbasis pembelajaran mesin baru mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model Tata Letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs koleksi dengan peran atau jenis khusus yang diprediksi oleh model. Yang terbaik adalah menggunakan peran paragraf dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung:

Peran yang diprediksi	Deskripsi	Jenis file yang didukung
`title`	Judul utama di halaman	pdf, gambar, docx, pptx, xlsx, html
`sectionHeading`	Satu atau beberapa subjudul di halaman	pdf, image, docx, xlsx, html
`footnote`	Teks di dekat bagian bawah halaman	pdf, gambar
`pageHeader`	Teks di dekat tepi atas halaman	pdf, image, docx
`pageFooter`	Teks di dekat tepi bawah halaman	pdf, gambar, docx, pptx, html
`pageNumber`	Nomor halaman	pdf, gambar

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Teks, baris, dan kata

Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa tulisan tangan yang didukung.

Untuk Model Tata Letak Microsoft Word, Excel, PowerPoint, dan HTML, Kecerdasan Dokumen v4.0 2024-11-30 (GA) mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.

Contoh kode
Hasil

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Lihat sampel di GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Gaya tulisan tangan untuk baris teks

Respons mencakup pengklasifikasian apakah setiap baris teks bergaya tulisan tangan atau tidak, bersama dengan tingkat keyakinan. Untuk informasi selengkapnya. Lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Jika Anda mengaktifkan kemampuan tambahan font/gaya , Anda juga mendapatkan hasil font/gaya sebagai bagian dari objek .

Tanda pilihan

Model Tata Letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages untuk setiap halaman. Mereka termasuk pembatas polygon, confidence, dan pilihan state (selected/unselected). Representasi teks (yaitu, :selected: dan :unselected) juga disertakan sebagai indeks awal (offset) dan length yang mereferensikan properti tingkat content atas yang berisi teks lengkap dari dokumen.

Contoh kode
Hasil

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

Lihat sampel di GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tabel

Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model Tata Letak mengekstrak tabel di bagian pageResults output JSON. Informasi tabel yang diekstrak .. /menyertakan jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan poligon pembatasnya dihasilkan bersama dengan informasi apakah area tersebut dikenali sebagai columnHeader atau tidak. Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan informasi span yang berisi indeks awal (offset). Model ini juga mengeluarkan length dalam konten tingkat atas yang berisi teks lengkap dari dokumen.

Berikut adalah beberapa faktor yang perlu dipertimbangkan saat menggunakan kemampuan ekstraksi dari Kecerdasan Dokumen:

Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
Apakah data dapat dimuat dalam kisi dua dimensi jika data tidak dalam format tabel?
Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi beberapa halaman sebelum mengirimkannya ke Pemrosesan Dokumen. Setelah analisis, proses ulang halaman menjadi satu tabel.
Tabular fields lihat jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.

Catatan

Analisis tabel tidak didukung jika file input adalah XLSX.
Untuk 2024-11-30 (GA), wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.

Contoh kode
Hasil

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

Lihat sampel di GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Respons output ke format markdown

API Tata Letak dapat menghasilkan teks yang diekstrak dalam format markdown. outputContentFormat=markdown Gunakan untuk menentukan format output dalam markdown. Konten markdown dihasilkan sebagai bagian dari content.

Catatan

Untuk v4.0 2024-11-30 (GA), representasi tabel diubah ke tabel HTML untuk mengaktifkan penyajian sel gabungan, header multi-baris, dll. Perubahan terkait lainnya adalah menggunakan karakter ☒ kotak centang Unicode dan ☐ untuk tanda pilihan alih-alih :selected: dan :unselected:. Pembaruan ini berarti bahwa konten bidang tanda pilihan berisi :selected: meskipun rentangnya merujuk ke karakter Unicode dalam rentang tingkat atas. Lihat Format Output Markdown untuk definisi lengkap elemen Markdown.

Contoh kode
Hasil

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Lihat sampel di GitHub.

PageHeader="This is the header of the document."

This is title
===
# 1\. Text
Latin refers to an ancient Italic language originating in the region of Latium in ancient Rome.
# 2\. Page Objects
## 2.1 Table
Here's a sample table below, designed to be simple for easy understand and quick reference.
| Name | Corp | Remark |
| - | - | - |
| Foo | | |
| Bar | Microsoft | Dummy |
Table 1: This is a dummy table
## 2.2. Figure
<figure>
<figcaption>

Figure 1: Here is a figure with text
</figcaption>

![](figures/0)
FigureContent="500 450 400 400 350 250 200 200 200- Feb"
</figure>

# 3\. Others
Al Document Intelligence is an Al service that applies advanced machine learning to extract text, key-value pairs, tables, and structures from documents automatically and accurately:
    :selected:
clear
    :selected:
precise
    :unselected:
vague
    :selected:
coherent
    :unselected:
Incomprehensible
Turn documents into usable data and shift your focus to acting on information rather than compiling it. Start with prebuilt models or create custom models tailored to your documents both on premises and in the cloud with the Al Document Intelligence studio or SDK.
Learn how to accelerate your business processes by automating text extraction with Al Document Intelligence. This webinar features hands-on demos for key use cases such as document processing, knowledge mining, and industry-specific Al model customization.
PageFooter="This is the footer of the document."
PageFooter="1 | Page"

Angka

Gambar (bagan, gambar) dalam dokumen memainkan peran penting dalam melengkapi dan meningkatkan konten tekstual, memberikan representasi visual yang membantu pemahaman informasi yang kompleks. Objek gambar yang terdeteksi oleh model Tata Letak memiliki properti utama seperti boundingRegions (lokasi spasial gambar pada halaman dokumen, termasuk nomor halaman dan koordinat poligon yang menguraikan batas gambar), spans (merinci rentang teks yang terkait dengan gambar, menentukan offset dan panjangnya dalam teks dokumen. Koneksi ini membantu mengaitkan gambar dengan konteks tekstual yang relevan), elements (pengidentifikasi untuk elemen teks atau paragraf dalam dokumen yang terkait dengan atau menggambarkan gambar) dan caption jika ada.

Ketika output=figures ditentukan selama operasi analisis awal, layanan menghasilkan gambar yang dipotong untuk semua angka yang terdeteksi yang dapat diakses melalui /analyeResults/{resultId}/figures/{figureId}. FigureId disertakan dalam setiap objek gambar, sesuai dengan konvensi yang tidak didokumentasikan di {pageNumber}.{figureIndex} di mana figureIndex direset menjadi satu per halaman.

Catatan

Untuk v4.0 2024-11-30 (GA), wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.

Contoh kode
Hasil

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

Lihat sampel di GitHub.

{
    "figures": [
        {
        "id": "{figureId}",
        "boundingRegions": [],
        "spans": [],
        "elements": [
            "/paragraphs/15",
            ...
        ],
        "caption": {
            "content": "Here is a figure with some text",
            "boundingRegions": [],
            "spans": [],
            "elements": [
            "/paragraphs/15"
            ]
        }
        }
    ]
}

Cuplikan layar contoh gambar dokumen.

Bagian

Analisis struktur dokumen hierarkis sangat penting dalam mengatur, memahami, dan memproses dokumen yang luas. Pendekatan ini sangat penting untuk mensegmentasi dokumen panjang secara semantik untuk meningkatkan pemahaman, memfasilitasi navigasi, dan meningkatkan pengambilan informasi. Munculnya retrieval-augmented generation (RAG) dalam AI generatif dokumen menggarisbawahi pentingnya analisis struktur dokumen hierarkis. Model Tata Letak mendukung bagian dan subbagian dalam output, yang mengidentifikasi hubungan bagian dan objek dalam setiap bagian. Struktur hierarki pada setiap bagian dipertahankan di elements. Anda dapat menggunakan format respons output ke markdown untuk dengan mudah mendapatkan bagian dan subbagian pada markdown.

Contoh kode
Hasil

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Lihat sampel di GitHub.

{
    "sections": [
        {
        "spans": [],
        "elements": [
            "/paragraphs/0",
            "/sections/1",
            "/sections/2",
            "/sections/5"
        ]
        },
...
}

Cuplikan layar contoh bagian dokumen.

Konten ini berlaku untuk:v3.1 (GA) | Versi terbaru:v4.0 (GA) | Versi sebelumnya:v3.0v2.1

Konten ini berlaku untuk:tanda centangv3.0 (GA) | Versi terbaru:tanda centang ungupurple-checkmark v4.0 (GA) Versi sebelumnya:tanda centang biruv2.1

Konten ini berlaku untuk:Versi terbaru: | v4.0 (GA)

Analisis tata letak dokumen

Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.

Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.

Ilustrasi contoh tata letak dokumen.

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur	Sumber
Model tata letak	• pelabelan Kecerdasan Dokumen • • • Kontainer Docker Kecerdasan Dokumen

Panduan input

Format file yang didukung:

Modél	PDF	Gambar: `JPEG/JPG`, , `PNGBMP`, `TIFF`, ,`HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Baca	✔	✔	✔
Tata letak	✔	✔
Dokumen Umum	✔	✔
Bawaan	✔	✔
Ekstraksi khusus	✔	✔
Klasifikasi kustom	✔	✔	✔

Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan 8 teks dengan ukuran sekitar 150 titik per inci (DPI).
Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
- Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.
- Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Panduan Input

Format file yang didukung: JPEG, PNG, PDF, dan TIFF.
Jumlah halaman yang didukung: Untuk PDF dan TIFF, hingga 2.000 halaman diproses. Untuk pelanggan level gratis, hanya dua halaman pertama yang diproses.
Ukuran file yang didukung: ukuran file harus kurang dari 50 MB dan dimensi minimal 50 x 50 piksel dan paling banyak 10.000 x 10.000 piksel.

Mulai sekarang

Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur diekstrak dari dokumen menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:

Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Cuplikan layar kunci dan lokasi endpoint di portal Azure.

Setelah mengambil kunci dan titik akhir, Anda dapat menggunakan opsi pengembangan berikut untuk membangun dan menyebarkan aplikasi Kecerdasan Dokumen Anda:

Catatan

Document Intelligence Studio tersedia dengan API v3.0 dan versi yang lebih baru.

REST API

Kecerdasan Dokumen v2.1 (Form Recognizer)

Alat Pelabelan Sampel untuk Kecerdasan Dokumen

Navigasikan ke alat contoh Kecerdasan Dokumen.
Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.
** Pada kolom titik akhir layanan Kecerdasan Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.
Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.
Di bidang Sumber, pilih URL dari menu dropdown Anda dapat menggunakan dokumen sampel kami:
- Contoh dokumen.
- Pilih tombol Ambil .
Pilih jalankan tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil Analyze Layout API untuk menganalisis dokumen.
Lihat hasilnya - lihat teks yang diekstrak yang disorot, tanda pilihan yang terdeteksi, dan tabel yang terdeteksi.

Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur	Sumber
API Tata Letak	• pelabelan Kecerdasan Dokumen • • • Kontainer Docker Kecerdasan Dokumen

Ekstrak data

Model tata letak mengekstrak elemen struktural dari dokumen Anda. Untuk mengikuti adalah deskripsi elemen struktural ini dengan panduan tentang cara mengekstraknya dari input dokumen Anda:

Halaman
Paragraf
Teks, garis, dan kata
Tanda pilihan
Meja
Anotasi

Ekstrak data

Model tata letak mengekstrak elemen struktural dari dokumen Anda. Untuk mengikuti adalah deskripsi elemen struktural ini dengan panduan tentang cara mengekstraknya dari input dokumen Anda:

Halaman
Paragraf
Teks, garis, dan kata
Tanda pilihan
Meja
Urutan bacaan alami
Pilih nomor halaman atau rentang

Halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan .. /termasuk sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file	Unit halaman terkomputasi	Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF)	Setiap gambar = 1 unit halaman	Total gambar
PDF	Setiap halaman dalam PDF = 1 unit halaman	Total halaman dalam PDF
TIFF	Setiap gambar dalam TIFF = 1 unit halaman	Jumlah gambar di TIFF
Word (DOCX)	Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Jumlah total halaman, masing-masing hingga 3.000 karakter
Excel (XLSX)	Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Total jumlah lembar kerja
PowerPoint (PPTX)	Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Total slide
HTML	Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung	Jumlah total halaman, masing-masing hingga 3.000 karakter

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Contoh kode
Hasil

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

Lihat sampel di GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Mengekstrak halaman yang dipilih dari dokumen

Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.

Paragraf


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Fungsi paragraf

Peran yang diprediksi	Deskripsi	Jenis file yang didukung
`title`	Judul utama di halaman	pdf, gambar, docx, pptx, xlsx, html
`sectionHeading`	Satu atau beberapa subjudul di halaman	pdf, image, docx, xlsx, html
`footnote`	Teks di dekat bagian bawah halaman	pdf, gambar
`pageHeader`	Teks di dekat tepi atas halaman	pdf, image, docx
`pageFooter`	Teks di dekat tepi bawah halaman	pdf, gambar, docx, pptx, html
`pageNumber`	Nomor halaman	pdf, gambar

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Teks, garis, dan kata

Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Koleksi styles .. /menyertakan gaya tulisan tangan untuk baris jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa tulisan tangan yang didukung.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Contoh kode
Hasil

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

Lihat sampel di GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Gaya tulisan tangan

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Jika Anda mengaktifkan kemampuan tambahan font/gaya , Anda juga mendapatkan hasil font/gaya sebagai bagian dari objek .

Tanda pilihan

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Contoh kode
Hasil

# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

Lihat sampel di GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tabel

Berikut adalah beberapa faktor yang perlu dipertimbangkan saat menggunakan kemampuan ekstraksi dari Kecerdasan Dokumen:

Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
Apakah data dapat dimuat dalam kisi dua dimensi jika data tidak dalam format tabel?
Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi beberapa halaman sebelum mengirimkannya ke Pemrosesan Dokumen. Setelah analisis, proses ulang halaman menjadi satu tabel.
Tabular fields lihat jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.

Catatan

Analisis tabel tidak didukung jika file input adalah XLSX.
Kecerdasan Dokumen v4.0 2024-11-30 (GA) mendukung wilayah pembatas untuk gambar dan tabel yang hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Contoh kode
Hasil

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

Lihat sampel di GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Anotasi

Model Tata Letak mengekstrak anotasi dalam dokumen, seperti centang dan silang. Respons.. termasuk skor kepercayaan, jenis anotasi, dan poligon pembatas.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Urutan pembacaan alami (hanya Latin)

Anda dapat menentukan urutan output baris teks dengan parameter kueri readingOrder. Gunakan natural untuk output urutan membaca yang lebih dapat dipahami manusia seperti yang ditunjukkan pada contoh berikut. Fitur ini hanya didukung untuk bahasa Latin.

Pilih nomor halaman atau rentang untuk ekstraksi teks

Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks. Contoh berikut memperlihatkan dokumen dengan 10 halaman, dengan teks yang diekstrak untuk kedua kasus - semua halaman (1-10) dan halaman yang dipilih (3-6).

Cuplikan layar model tata letak output halaman yang dipilih.

Operasi Pengambilan Hasil Analisis Tata Letak

Langkah kedua adalah memanggil operasi Dapatkan Hasil Analisis Tata Letak. Operasi ini menggunakan ID Hasil yang dibuat oleh operasi Analyze Layout sebagai masukan. Operasi menghasilkan respons JSON yang berisi bidang status dengan kemungkinan nilai berikut.

Bidang	Jenis	Nilai yang dapat dipakai
kedudukan	benang	`notStarted`: Operasi analisis tidak dimulai. `running`: Operasi analisis sedang berlangsung. `failed`: Operasi analisis gagal. `succeeded`: Operasi analisis berhasil.

Panggil operasi ini secara berulang hingga menghasilkan nilai succeeded. Untuk menghindari melebihi tarif permintaan per detik (RPS), gunakan interval 3 hingga 5 detik.

Ketika bidang status memiliki nilai succeeded, respons JSON mencakup tata letak, teks, tabel, dan tanda pilihan yang diekstrak. Data yang diekstrak mencakup baris dan kata teks yang diekstraksi, kotak pembatas, tampilan teks dengan indikasi tulisan tangan, tabel, dan tanda pilihan dengan penunjukan terpilih/tidak terpilih.

Klasifikasi tulisan tangan untuk baris teks (hanya dalam bahasa Latin)

Respons mencakup pengklasifikasian apakah setiap baris teks bergaya tulisan tangan atau tidak, bersama dengan tingkat keyakinan. Fitur ini hanya didukung untuk bahasa Latin. Contoh berikut menunjukkan klasifikasi tulisan tangan untuk teks dalam gambar.

Cuplikan layar dari proses klasifikasi tulisan tangan model

Sampel output JSON

Respons terhadap operasi Dapatkan Hasil Analisis Tata Letak adalah representasi terstruktur dari dokumen dengan semua informasi yang diekstrak. Silakan lihat di sini untuk file dokumen sampel dan output terstruktur output tata letak sampel.

Output JSON memiliki dua bagian:

readResults node berisi semua teks yang dikenali dan tanda pilihan. Hierarki presentasi teks adalah halaman, lalu baris, lalu kata individual.
pageResults node berisi informasi tentang tabel dan sel yang diekstrak dengan kotak pembatas, tingkat kepercayaan, serta rujukan ke baris dan kata di bidang "readResults".

Contoh Keluaran

Teks

API tata letak mengekstrak teks dari dokumen dan gambar dengan berbagai sudut dan warna teks. API menerima foto dokumen, faks, teks cetak dan/atau tulisan tangan (hanya dalam bahasa Inggris), dan mode campuran. Teks diekstrak dengan informasi yang diberikan pada kata, garis, kotak pembatas, tingkat kepercayaan, dan gaya (tulisan tangan atau lainnya). Semua informasi teks disertakan dalam bagian readResults dari output JSON.

Tabel dengan header

API Tata Letak mengekstrak tabel di bagian pageResults dari output JSON. Dokumen dapat dipindai, difoto, atau di buat digital. Tabel dapat menjadi rumit dengan sel atau kolom yang digabungkan, dengan atau tanpa batas, dan dengan sudut ganjil. Informasi tabel yang diekstrak .. /menyertakan jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan kotak pembatasnya dihasilkan bersama dengan apakah area dikenali sebagai bagian dari header atau tidak. Model memprediksi sel header dapat mencakup beberapa baris dan belum tentu merupakan baris pertama dalam tabel. Mereka juga bekerja dengan tabel yang diputar. Setiap sel tabel juga menyertakan teks lengkap dengan referensi ke kata-kata individual di bagian readResults.

Contoh tabel

Tanda pilihan (dokumen)

API tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak termasuk kotak pembatas, tingkat keyakinan, dan status (dipilih/tidak dipilih). Informasi tanda pilihan diekstrak di bagian readResults dari output JSON.

Panduan migrasi

Ikuti panduan migrasi Kecerdasan Dokumen v3.1 kami untuk mempelajari cara menggunakan versi v3.1 di aplikasi dan alur kerja Anda.

Langkah berikutnya

Pelajari cara memproses formulir dan dokumen Anda sendiri dengan Studio Kecerdasan Dokumen.
Selesaikan panduan cepat Kecerdasan Dokumen dan mulai buat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.

Temukan sampel lainnya di GitHub.

Temukan sampel lainnya di GitHub.

Pelajari cara memproses formulir dan dokumen Anda sendiri dengan alat Pelabelan Sampel Kecerdasan Dokumen.
Selesaikan panduan cepat Kecerdasan Dokumen dan mulai buat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.

Bagikan melalui

Apa itu model tata letak Kecerdasan Dokumen?

Analisis tata letak struktur dokumen

Opsi pengembangan

Bahasa yang didukung

Jenis file yang didukung

Persyaratan input

Mulai menggunakan model Tata Letak

Ekstraksi data

Halaman

Mengekstrak halaman yang dipilih

Paragraf

Fungsi paragraf

Teks, baris, dan kata

Gaya tulisan tangan untuk baris teks

Tanda pilihan

Tabel

Respons output ke format markdown

Angka

Bagian

Analisis tata letak dokumen

Bahasa dan lokal yang didukung

Panduan input

Panduan Input

Mulai sekarang

REST API

Alat Pelabelan Sampel untuk Kecerdasan Dokumen

Ekstrak data

Ekstrak data

Halaman

Mengekstrak halaman yang dipilih dari dokumen

Paragraf

Fungsi paragraf

Teks, garis, dan kata

Gaya tulisan tangan

Tanda pilihan

Tabel

Anotasi

Urutan pembacaan alami (hanya Latin)

Pilih nomor halaman atau rentang untuk ekstraksi teks

Operasi Pengambilan Hasil Analisis Tata Letak

Klasifikasi tulisan tangan untuk baris teks (hanya dalam bahasa Latin)

Sampel output JSON

Contoh Keluaran

Teks

Tabel dengan header

Tanda pilihan (dokumen)

Panduan migrasi

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan: