Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Model tata letak Azure Document Intelligence in Foundry Tools adalah API analisis dokumen tingkat lanjut berdasarkan pembelajaran mesin. Model ini tersedia di cloud Kecerdasan Dokumen. Anda dapat menggunakannya untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. Model ini menggabungkan versi yang ditingkatkan dari kemampuan pengenalan karakter optik (OCR) yang kuat dengan model pembelajaran mendalam untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.
Analisis tata letak struktur dokumen
Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang menarik dan keterkaungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:
- Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
- Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.
Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.
Opsi pengembangan
Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung alat, aplikasi, dan pustaka berikut.
| Fitur | Sumber | ID Model |
|---|---|---|
| Model tata letak | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Bahasa yang didukung
Untuk daftar lengkap bahasa yang didukung, lihat Dukungan bahasa: Model analisis dokumen.
Jenis file yang didukung
Model tata letak Kecerdasan Dokumen v4.0: 2024-11-30 (GA) mendukung format file berikut:
| Modél | Gambar: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLS), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Tata letak | ✔ | ✔ | ✔ |
Persyaratan input
- Foto dan pemindaian: Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
- PDF dan TIFF: Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses. (Dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses.)
- Kunci kata sandi: Jika PDF Anda dikunci kata sandi, Anda harus menghapus kunci sebelum pengiriman.
- Ukuran file: Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB untuk tingkat gratis (F0).
- Dimensi gambar: Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
- Tinggi teks: Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan sekitar 8 titik teks pada 150 titik per inci.
- Pelatihan model kustom: Jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model templat kustom dan 50.000 untuk model neural kustom.
- Pelatihan model ekstraksi kustom: Ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.
- Pelatihan model klasifikasi kustom: Ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.
- Jenis file Office (DOCX, XLSX, PPTX): Batas panjang string maksimum adalah 8 juta karakter.
Untuk informasi selengkapnya tentang penggunaan model, kuota, dan batas layanan, lihat Batas layanan.
Mulai menggunakan model tata letak
Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur, diekstrak dari dokumen dengan menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:
Sebuah langganan Azure. Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Setelah Anda mengambil kunci dan titik akhir, gunakan opsi pengembangan berikut untuk membangun dan menyebarkan aplikasi Kecerdasan Dokumen Anda.
Ekstraksi data
Model tata letak mengekstrak elemen struktural dari dokumen Anda. Elemen struktural berikut dijelaskan dalam sisa artikel ini bersama dengan panduan tentang cara mengekstraknya dari input dokumen Anda:
- Halaman
- Paragraf
- Teks, baris, dan kata
- Tanda pilihan
- Tabel
- Respons output terhadap markdown
- Angka
- Bagian
Jalankan analisis dokumen tata letak sampel dalam Document Intelligence Studio. Kemudian buka tab hasil dan akses output JSON lengkap.
Halaman
Koleksi pages adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi, yang menunjukkan apakah halaman diputar, dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan dalam tabel berikut.
| Format file | Unit halaman komputasi | Total halaman |
|---|---|---|
| Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman. | Total gambar |
| Setiap halaman di unit halaman PDF = 1. | Total halaman dalam PDF | |
| TIFF | Setiap gambar di unit halaman TIFF = 1. | Jumlah gambar di TIFF |
| Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Jumlah total halaman, masing-masing hingga 3.000 karakter |
| Excel (XLSX) | Setiap lembar kerja = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Total jumlah lembar kerja |
| PowerPoint (PPTX) | Setiap slide = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Total slide |
| HTML | Hingga 3.000 karakter = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Jumlah total halaman, masing-masing hingga 3.000 karakter |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Mengekstrak halaman yang dipilih
Untuk dokumen perkalian besar, gunakan pages parameter kueri untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.
Paragraf
Model tata letak mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagai content dan koordinat pembatas polygon . Informasi spans menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Fungsi paragraf
Deteksi objek halaman baru berdasarkan pembelajaran mesin mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model tata letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs koleksi dengan peran atau jenis khusus yang diprediksi oleh model.
Yang terbaik adalah menggunakan peran paragraf dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung.
| Peran yang diprediksi | Description | Jenis file yang didukung |
|---|---|---|
title |
Judul utama di halaman | PDF, Gambar, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Satu atau beberapa subjudul di halaman | PDF, Gambar, DOCX, XLSX, HTML |
footnote |
Teks di dekat bagian bawah halaman | PDF, Gambar |
pageHeader |
Teks di dekat tepi atas halaman | PDF, Gambar, DOCX |
pageFooter |
Teks di dekat tepi bawah halaman | PDF, Gambar, DOCX, PPTX, HTML |
pageNumber |
Nomor halaman | PDF, Gambar |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Teks, baris, dan kata
Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Koleksi styles mencakup gaya tulisan tangan untuk garis, jika terdeteksi, bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model tata letak Kecerdasan Dokumen v4.0 2024-11-30 (GA) mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Gaya tulisan tangan untuk baris teks
Respons mencakup apakah setiap baris teks dalam gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan add-on font/gaya, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.
Tanda pilihan
Model tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages untuk setiap halaman. Mereka termasuk pembatas polygon, confidence, dan pilihan state (selected/unselected). Representasi teks (yaitu, :selected: dan :unselected) juga disertakan sebagai indeks awal (offset) dan length yang mereferensikan properti tingkat content atas yang berisi teks lengkap dari dokumen.
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
Tabel
Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model tata letak mengekstrak tabel di bagian pageResults output JSON. Informasi tabel yang diekstrak mencakup jumlah kolom dan baris, rentang baris, dan rentang kolom.
Setiap sel dengan poligon pembatasnya adalah output bersama dengan informasi apakah area dikenali atau columnHeader tidak. Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan span informasi yang berisi indeks awal (offset). Model ini juga mengeluarkan length dalam konten tingkat atas yang berisi teks lengkap dari dokumen.
Berikut adalah beberapa faktor yang perlu dipertimbangkan saat Anda menggunakan kemampuan ekstraksi bale Kecerdasan Dokumen:
- Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
- Apakah data dapat dimuat dalam kisi dua dimensi jika data tidak dalam format tabel?
- Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi halaman sebelum Anda mengirimkannya ke Kecerdasan Dokumen. Setelah analisis, proses ulang halaman menjadi satu tabel.
- Lihat Bidang tabular jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.
Catatan
Analisis tabel tidak didukung jika file input adalah XLSX. Untuk 2024-11-30 (GA), wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
Respons output ke format Markdown
API tata letak dapat menghasilkan teks yang diekstrak dalam format Markdown.
outputContentFormat=markdown Gunakan untuk menentukan format output dalam Markdown. Konten Markdown adalah output sebagai bagian dari bagian content .
Catatan
Untuk v4.0 2024-11-30 (GA), representasi tabel diubah ke tabel HTML untuk mengaktifkan penyajian item seperti sel gabungan dan header multirow. Perubahan terkait lainnya adalah menggunakan karakter ☒ kotak centang Unicode dan ☐ untuk tanda pilihan alih-alih :selected: dan :unselected:. Pembaruan ini berarti bahwa konten bidang tanda pilihan berisi :selected: meskipun rentangnya merujuk ke karakter Unicode dalam rentang tingkat atas. Untuk definisi lengkap elemen Markdown, lihat Format output Markdown.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Angka
Gambar (bagan dan gambar) dalam dokumen memainkan peran penting dalam melengkapi dan meningkatkan konten tekstual. Mereka memberikan representasi visual yang membantu dalam pemahaman informasi yang kompleks. Objek figures yang terdeteksi oleh model tata letak memiliki properti utama seperti:
-
boundingRegions: Lokasi spasial gambar di halaman dokumen, termasuk nomor halaman dan koordinat poligon yang menguraikan batas gambar. -
spans: Rentang teks terkait dengan gambar yang menentukan offset dan panjangnya dalam teks dokumen. Koneksi ini membantu mengaitkan gambar dengan konteks tekstual yang relevan. -
elements: Pengidentifikasi untuk elemen teks atau paragraf dalam dokumen yang terkait dengan atau menjelaskan gambar. -
caption: Deskripsi jika ada.
Ketika output=figures ditentukan selama operasi analisis awal, layanan menghasilkan gambar yang dipotong untuk semua angka yang terdeteksi yang dapat diakses melalui /analyeResults/{resultId}/figures/{figureId}. Nilainya FigureId adalah ID yang disertakan dalam setiap objek gambar, mengikuti konvensi yang tidak terdokumentasi di {pageNumber}.{figureIndex} mana figureIndex reset ke satu per halaman.
Untuk v4.0 2024-11-30 (GA), wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
Bagian
Analisis struktur dokumen hierarkis sangat penting dalam mengatur, memahami, dan memproses dokumen yang luas. Pendekatan ini sangat penting untuk mensegmentasi dokumen panjang secara semantik untuk meningkatkan pemahaman, memfasilitasi navigasi, dan meningkatkan pengambilan informasi. Munculnya retrieval-augmented generation (RAG) dalam AI generatif dokumen menggarisbawahi pentingnya analisis struktur dokumen hierarkis.
Model tata letak mendukung bagian dan subbagian dalam output, yang mengidentifikasi hubungan bagian dan objek dalam setiap bagian. Struktur hierarki dipertahankan untuk elements setiap bagian. Anda dapat menggunakan respons output ke format Markdown untuk mendapatkan bagian dan subbagian dengan mudah di Markdown.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Konten ini berlaku untuk:
tanda centangv3.0 (GA) | Versi terbaru:tanda centang ungu
purple-checkmark v4.0 (GA) Versi sebelumnya:tanda centang biruv2.1
Konten ini berlaku untuk:
tanda centangVersi terbaru: | blue-checkmarkv4.0 (GA)
Model tata letak Kecerdasan Dokumen adalah API analisis dokumen tingkat lanjut. Model ini didasarkan pada pembelajaran mesin dan tersedia di cloud Kecerdasan Dokumen. Anda dapat menggunakannya untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. Ini menggabungkan versi yang ditingkatkan dari kemampuan OCR yang kuat dengan model pembelajaran mendalam. Anda dapat menggunakannya untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.
Analisis tata letak dokumen
Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang menarik dan keterkaungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:
- Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
- Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.
Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.
Bahasa dan lokal yang didukung
Untuk daftar lengkap bahasa yang didukung, lihat Dukungan bahasa: Model analisis dokumen.
Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut.
| Fitur | Sumber |
|---|---|
| Model tata letak | • Alat • REST API • SDK pustaka klien• Kontainer Docker Kecerdasan Dokumen |
Panduan input
Format file yang didukung:
| Modél | Gambar: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Baca | ✔ | ✔ | ✔ |
| Tata letak | ✔ | ✔ | |
| Dokumen umum | ✔ | ✔ | |
| Bawaan | ✔ | ✔ | |
| Ekstraksi khusus | ✔ | ✔ | |
| Klasifikasi kustom | ✔ | ✔ | ✔ |
- Foto dan pemindaian: Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
- PDF dan TIFF: Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses dengan langganan tingkat gratis. Hanya dua halaman pertama yang diproses.
- Ukuran file: Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB untuk tingkat gratis (F0).
- Dimensi gambar: Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
- Kunci kata sandi: Jika PDF Anda dikunci kata sandi, Anda harus menghapus kunci sebelum pengiriman.
- Tinggi teks: Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan sekitar 8 titik teks pada 150 titik per inci.
- Pelatihan model kustom: Jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model templat kustom dan 50.000 untuk model neural kustom.
- Pelatihan model ekstraksi kustom: Ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.
- Pelatihan model klasifikasi kustom: Ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk 2024-11-30 (GA), ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.
- Jenis file Office (DOCX, XLSX, PPTX): Batas panjang string maksimum adalah 8 juta karakter.
Panduan Input
- Format file yang didukung: JPEG, PNG, PDF, dan TIFF.
- Jumlah halaman yang didukung: Untuk PDF dan TIFF, hingga 2.000 halaman diproses. Untuk pelanggan level gratis, hanya dua halaman pertama yang diproses.
- Ukuran file yang didukung: Ukuran file harus kurang dari 50 MB, dan dimensi harus minimal 50 x 50 piksel dan paling banyak 10.000 x 10.000 piksel.
Mulai sekarang
Anda bisa menggunakan Kecerdasan Dokumen untuk mengekstrak data seperti teks, tabel, header tabel, tanda pilihan, dan informasi struktur dari dokumen. Anda membutuhkan sumber daya berikut:
- Sebuah langganan Azure. Anda dapat membuatnya secara gratis.
- Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Setelah mengambil kunci dan titik akhir, Anda dapat menggunakan opsi pengembangan berikut untuk membangun dan menyebarkan aplikasi Kecerdasan Dokumen Anda.
Catatan
Document Intelligence Studio tersedia dengan API v3.0 dan versi yang lebih baru.
REST API
Alat Pelabelan Sampel untuk Kecerdasan Dokumen
Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.
** Pada kolom titik akhir layanan Kecerdasan Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.
Di bidang kunci , tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.
Di bidang Sumber , pilih URL dari menu dropdown. Anda dapat menggunakan contoh dokumen:
Pilih Ambil.
Pilih jalankan tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil API Analisis Tata Letak untuk menganalisis dokumen.
Lihat hasilnya. Lihat teks yang diekstrak yang disorot, tanda pilihan yang terdeteksi, dan tabel yang terdeteksi.
Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut.
| Fitur | Sumber |
|---|---|
| API Tata Letak | • Alat • REST API • SDK pustaka klien• Kontainer Docker Kecerdasan Dokumen |
Ekstrak data
Model tata letak mengekstrak elemen struktural dari dokumen Anda. Elemen struktural dijelaskan di sini, dan panduan berikut menunjukkan cara mengekstraknya dari input dokumen Anda.
Ekstrak data
Model tata letak mengekstrak elemen struktural dari dokumen Anda. Elemen struktural dijelaskan di sini, dan panduan berikut menunjukkan cara mengekstraknya dari input dokumen Anda.
Halaman
Koleksi pages adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan dalam tabel berikut.
| Format file | Unit halaman komputasi | Total halaman |
|---|---|---|
| Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman. | Total gambar |
| Setiap halaman di unit halaman PDF = 1. | Total halaman dalam PDF | |
| TIFF | Setiap gambar di unit halaman TIFF = 1. | Jumlah gambar di TIFF |
| Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Jumlah total halaman, masing-masing hingga 3.000 karakter |
| Excel (XLSX) | Setiap lembar kerja = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Total jumlah lembar kerja |
| PowerPoint (PPTX) | Setiap slide = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Total slide |
| HTML | Hingga 3.000 karakter = 1 unit halaman. Gambar yang disematkan atau ditautkan tidak didukung. | Jumlah total halaman, masing-masing hingga 3.000 karakter |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Mengekstrak halaman yang dipilih dari dokumen
Untuk dokumen perkalian besar, gunakan pages parameter kueri untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.
Paragraf
Model tata letak mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagai contentdan koordinat pembatas polygon . Informasi span menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Fungsi paragraf
Deteksi objek halaman baru berdasarkan pembelajaran mesin mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model tata letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs koleksi dengan peran atau jenis khusus yang diprediksi oleh model. Yang terbaik adalah menggunakan peran paragraf dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung.
| Peran yang diprediksi | Description | Jenis file yang didukung |
|---|---|---|
title |
Judul utama di halaman | PDF, Gambar, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Satu atau beberapa subjudul di halaman | PDF, Gambar, DOCX, XLSX, HTML |
footnote |
Teks di dekat bagian bawah halaman | PDF, Gambar |
pageHeader |
Teks di dekat tepi atas halaman | PDF, Gambar, DOCX |
pageFooter |
Teks di dekat tepi bawah halaman | PDF, Gambar, DOCX, PPTX, HTML |
pageNumber |
Nomor halaman | PDF, Gambar |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Teks, garis, dan kata
Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai baris dan kata. Koleksi styles mencakup gaya tulisan tangan untuk baris jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa tulisan tangan yang didukung.
Untuk Model tata letak Word, Excel, PowerPoint, dan HTML, Kecerdasan Dokumen v4.0 2024-11-30 (GA) mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Gaya tulisan tangan
Respons termasuk mengklasifikasikan apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan add-on font/gaya, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.
Tanda pilihan
Model tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages untuk setiap halaman. Mereka termasuk pembatas polygon, confidence, dan pilihan state (selected/unselected). Representasi teks (yaitu, :selected: dan :unselected) juga disertakan sebagai indeks awal (offset) dan length yang mereferensikan properti tingkat content atas yang berisi teks lengkap dari dokumen.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
Tabel
Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model tata letak mengekstrak tabel di bagian pageResults output JSON. Informasi tabel yang diekstrak mencakup jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan poligon pembatasnya adalah output bersama dengan informasi apakah area dikenali atau columnHeader tidak.
Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan span informasi yang berisi indeks awal (offset). Model ini juga mengeluarkan length dalam konten tingkat atas yang berisi teks lengkap dari dokumen.
Berikut adalah beberapa faktor yang perlu dipertimbangkan saat Anda menggunakan kemampuan ekstraksi bale Kecerdasan Dokumen:
- Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
- Apakah data dapat dimuat dalam kisi dua dimensi jika data tidak dalam format tabel?
- Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi halaman sebelum Anda mengirimkannya ke Kecerdasan Dokumen. Setelah analisis, proses ulang halaman menjadi satu tabel.
- Lihat Bidang tabular jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.
Catatan
Analisis tabel tidak didukung jika file input adalah XLSX. Kecerdasan Dokumen v4.0 2024-11-30 (GA) mendukung wilayah pembatas untuk gambar dan tabel yang hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
Anotasi
Model tata letak mengekstrak anotasi dalam dokumen, seperti pemeriksaan dan silang. Responsnya mencakup jenis anotasi, bersama dengan skor keyakinan dan poligon pembatas.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
Urutan pembacaan alami (hanya Latin)
Anda dapat menentukan urutan output baris teks dengan parameter kueri readingOrder. Gunakan natural untuk output urutan baca yang lebih ramah manusia, seperti yang ditunjukkan dalam contoh berikut. Fitur ini hanya didukung untuk bahasa Latin.
Pilih nomor halaman atau rentang untuk ekstraksi teks
Untuk dokumen perkalian besar, gunakan pages parameter kueri untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks. Contoh berikut menunjukkan dokumen dengan 10 halaman, dengan teks yang diekstrak untuk kedua kasus, semua halaman (1-10), dan halaman yang dipilih (3-6).
Operasi Pengambilan Hasil Analisis Tata Letak
Langkah kedua adalah memanggil operasi Dapatkan Hasil Analisis Tata Letak. Operasi ini mengambil sebagai input ID Hasil yang Analyze Layout dibuat operasi. Operasi menghasilkan respons JSON yang berisi bidang status dengan kemungkinan nilai berikut.
| Bidang | Jenis | Nilai yang dapat dipakai |
|---|---|---|
| keadaan | string |
notStarted: Operasi analisis tidak dimulai.running: Operasi analisis sedang berlangsung.failed: Operasi analisis gagal.succeeded: Operasi analisis berhasil. |
Panggil operasi ini secara berulang hingga menghasilkan nilai succeeded. Untuk menghindari melebihi tingkat permintaan per detik, gunakan interval tiga hingga lima detik.
Saat bidang status memiliki succeeded nilai , respons JSON menyertakan tata letak, teks, tabel, dan tanda pilihan yang diekstrak. Data yang diekstrak mencakup baris teks dan kata yang diekstrak, kotak pembatas, tampilan teks dengan indikasi tulisan tangan, tabel, dan tanda pilihan dengan ditunjukkan dipilih/tidak dipilih.
Klasifikasi tulisan tangan untuk baris teks (hanya dalam bahasa Latin)
Respons mencakup mengklasifikasikan apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Fitur ini hanya didukung untuk bahasa Latin. Contoh berikut menunjukkan klasifikasi tulisan tangan untuk teks dalam gambar.
Sampel output JSON
Respons terhadap Get Analyze Layout Result operasi adalah representasi terstruktur dari dokumen dengan semua informasi yang diekstrak.
Lihat contoh file dokumen dan output tata letak sampel output terstrukturnya.
Output JSON memiliki dua bagian:
- Simpul
readResultsberisi semua teks dan tanda pilihan yang dikenali. Hierarki presentasi teks adalah halaman, lalu garis, lalu kata individual. - Simpul
pageResultsberisi tabel dan sel yang diekstrak dengan kotak pembatas, keyakinan, dan referensi ke baris dan kata direadResultsbidang .
Contoh output
Teks
API tata letak mengekstrak teks dari dokumen dan gambar dengan beberapa sudut dan warna teks. Ini menerima foto dokumen, faks, teks cetak dan/atau tulisan tangan (hanya bahasa Inggris), dan mode campuran. Teks diekstrak dengan informasi yang diberikan pada kata, garis, kotak pembatas, tingkat kepercayaan, dan gaya (tulisan tangan atau lainnya). Semua informasi teks disertakan dalam bagian readResults dari output JSON.
Tabel dengan header
API Tata Letak mengekstrak tabel di bagian pageResults output JSON. Anda dapat memindai, memotret, atau mendigitalkan dokumen. Tabel dapat menjadi rumit dengan sel atau kolom yang digabungkan, dengan atau tanpa batas, dan dengan sudut ganjil.
Informasi tabel yang diekstrak mencakup jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan kotak pembatasnya dihasilkan bersama dengan apakah area dikenali sebagai bagian dari header atau tidak. Sel header yang diprediksi model dapat mencakup beberapa baris dan belum tentu merupakan baris pertama dalam tabel. Mereka juga bekerja dengan tabel yang diputar. Setiap sel tabel juga menyertakan teks lengkap dengan referensi ke kata individual di bagian tersebut readResults .
Tanda pilihan (dokumen)
API tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak termasuk kotak pembatas, tingkat keyakinan, dan status (dipilih/tidak dipilih). Informasi tanda pilihan diekstrak di bagian readResults dari output JSON.
Panduan migrasi
- Untuk mempelajari cara menggunakan versi v3.1 di aplikasi dan alur kerja Anda, ikuti langkah-langkah dalam panduan migrasi Kecerdasan Dokumen v3.1.
Konten terkait
- Pelajari cara memproses formulir dan dokumen Anda sendiri dengan Studio Kecerdasan Dokumen.
- Selesaikan mulai cepat Kecerdasan Dokumen, dan buat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.
- Pelajari cara memproses formulir dan dokumen Anda sendiri dengan alat Pelabelan Sampel Kecerdasan Dokumen.
- Selesaikan mulai cepat Kecerdasan Dokumen, dan buat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.