Model tata letak Kecerdasan Dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
- Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
- US Timur
- US Barat2
- Eropa Barat
- US Tengah Utara
Konten ini berlaku untuk: v4.0 (pratinjau) | Versi sebelumnya: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Model tata letak Kecerdasan Dokumen adalah API analisis dokumen berbasis pembelajaran mesin tingkat lanjut yang tersedia di cloud Kecerdasan Dokumen. Ini memungkinkan Anda untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. API menggabungkan versi yang disempurnakan dari kemampuan Pengenalan Karakter Optik (OCR) kami yang canggih dengan model pembelajaran mendalam untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.
Analisis tata letak dokumen (v4)
Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang diminati dan hubungan antar-hubungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:
- Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
- Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.
Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.
Opsi pengembangan (v4)
Kecerdasan Dokumen v4.0 (pratinjau 2024-07-31) mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model tata letak | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Persyaratan input (v4)
Format file yang didukung:
Model PDF Gambar: JPEG/JPG
, ,BMP
PNG
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
Mulai menggunakan model Tata Letak
Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur diekstrak dari dokumen menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Document Intelligence Studio tersedia dengan API v3.0 dan versi yang lebih baru.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Bahasa dan lokal yang didukung (ocr)
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Ekstraksi data (v4)
Model tata letak mengekstrak teks, tanda pilihan, tabel, paragraf, dan jenis paragraf (roles
) dari dokumen Anda.
Catatan
2024-02-29-preview
Versi , 2023-10-31-preview
, dan yang lebih baru mendukung file Microsoft office (DOCX, XLSX, PPTX) dan HTML. Fitur berikut tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
- Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
- Rentang halaman (
pages
) tidak didukung sebagai parameter. - Tidak ada
lines
objek.
Halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan .. /termasuk sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Mengekstrak halaman yang dipilih dari dokumen
Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.
Paragraf
Model Tata Letak mengekstrak semua blok teks yang diidentifikasi dalam koleksi paragraphs
sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan .. /termasuk teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti content
tingkat atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Peran paragraf
Deteksi objek halaman berbasis pembelajaran mesin baru mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model Tata Letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs
koleksi dengan peran atau jenis khusus yang diprediksi oleh model. Yang terbaik adalah menggunakan peran paragraf dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung:
Peran yang diprediksi | Keterangan | Jenis file yang didukung |
---|---|---|
title |
Judul utama di halaman | pdf, gambar, docx, pptx, xlsx, html |
sectionHeading |
Satu atau beberapa subjudul di halaman | pdf, image, docx, xlsx, html |
footnote |
Teks di dekat bagian bawah halaman | pdf, gambar |
pageHeader |
Teks di dekat tepi atas halaman | pdf, image, docx |
pageFooter |
Teks di dekat tepi bawah halaman | pdf, gambar, docx, pptx, html |
pageNumber |
Nomor halaman | pdf, gambar |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Teks, baris, dan kata
Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Koleksi styles
.. /menyertakan gaya tulisan tangan untuk baris jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, Kecerdasan Dokumen versi 2024-02-29-preview dan model Tata Letak pratinjau 2023-10-31 mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Gaya tulisan tangan untuk baris teks
Respons .. /termasuk mengklasifikasikan apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya. Lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Tanda pilihan
Model Tata Letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages
untuk setiap halaman. Mereka termasuk batas polygon
, confidence
, dan pilihan state
(selected/unselected
). Representasi teks (yaitu, :selected:
dan :unselected
) juga disertakan sebagai indeks awal (offset
) dan length
yang mereferensikan properti tingkat content
atas yang berisi teks lengkap dari dokumen.
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
Tabel
Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model Tata Letak mengekstrak tabel di bagian pageResults
output JSON. Informasi tabel yang diekstrak .. /menyertakan jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan poligon pembatasnya adalah output bersama dengan informasi apakah area dikenali sebagai atau columnHeader
tidak. Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan informasi span
yang berisi indeks awal (offset
). Model ini juga mengeluarkan length
dalam konten tingkat atas yang berisi teks lengkap dari dokumen.
Berikut adalah beberapa faktor yang perlu dipertimbangkan saat menggunakan kemampuan ekstraksi bale Kecerdasan Dokumen:
Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
Bisakah data pas dalam kisi dua dimensi jika data tidak dalam format tabel?
Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi halaman sebelum mengirimkannya ke Kecerdasan Dokumen. Setelah analisis, pasca-proses halaman ke satu tabel.
Lihat bidang Tabular jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.
Catatan
- Analisis tabel tidak didukung jika file input adalah XLSX.
- Dimulai dengan pratinjau 2024-07-31, wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
Output ke format markdown
API Tata Letak dapat menghasilkan teks yang diekstrak dalam format markdown. outputContentFormat=markdown
Gunakan untuk menentukan format output dalam markdown. Konten markdown adalah output sebagai bagian dari bagian content
.
Catatan
Mulai dari pratinjau 2024-07-31, representasi tabel diubah ke tabel HTML untuk mengaktifkan penyajian sel gabungan, header multi-baris, dll. Perubahan terkait lainnya adalah menggunakan karakter ☒ kotak centang Unicode dan ☐ untuk tanda pilihan alih-alih :dipilih: dan :unselected:. Perhatikan bahwa ini berarti bahwa konten bidang tanda pilihan akan berisi :dipilih: meskipun rentangnya merujuk ke karakter Unicode dalam rentang tingkat atas.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Angka
Gambar (bagan, gambar) dalam dokumen memainkan peran penting dalam melengkapi dan meningkatkan konten tekstual, memberikan representasi visual yang membantu pemahaman informasi yang kompleks. Objek gambar yang terdeteksi oleh model Tata Letak memiliki properti utama seperti boundingRegions
(lokasi spasial gambar pada halaman dokumen, termasuk nomor halaman dan koordinat poligon yang menguraikan batas gambar), spans
(merinci rentang teks yang terkait dengan gambar, menentukan offset dan panjangnya dalam teks dokumen. Koneksi ini membantu mengaitkan gambar dengan konteks tekstual yang relevan), elements
(pengidentifikasi untuk elemen teks atau paragraf dalam dokumen yang terkait dengan atau menggambarkan gambar) dan caption
jika ada.
Ketika output=figures ditentukan selama operasi analisis awal, layanan menghasilkan gambar yang dipotong untuk semua angka yang terdeteksi yang dapat diakses melalui /analyeResults/{resultId}/figures/{figureId}
.
FigureId
disertakan dalam setiap objek gambar, mengikuti konvensi yang tidak terdokumentasi di {pageNumber}.{figureIndex}
mana figureIndex
reset ke satu per halaman.
Catatan
Dimulai dengan pratinjau 2024-07-31, wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
Bagian
Analisis struktur dokumen hierarkis sangat penting dalam mengatur, memahami, dan memproses dokumen yang luas. Pendekatan ini sangat penting untuk mensegmentasi dokumen panjang secara semantik untuk meningkatkan pemahaman, memfasilitasi navigasi, dan meningkatkan pengambilan informasi. Munculnya Retrieval Augmented Generation (RAG) dalam AI generatif dokumen menggarisbawahi pentingnya analisis struktur dokumen hierarkis. Model Tata Letak mendukung bagian dan subbagian dalam output, yang mengidentifikasi hubungan bagian dan objek dalam setiap bagian. Struktur hierarki dipertahankan di elements
setiap bagian. Anda dapat menggunakan output untuk menandai format untuk dengan mudah mendapatkan bagian dan subbagian dalam markdown.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Konten ini berlaku untuk: v3.1 (GA) | Versi terbaru: v4.0 (pratinjau) | Versi sebelumnya: v3.0 v2.1
Konten ini berlaku untuk: v3.0 (GA) | Versi terbaru: v4.0 (pratinjau) v3.1 | Versi sebelumnya: v2.1
Konten ini berlaku untuk: v2.1 | Versi terbaru: v4.0 (pratinjau)
Model tata letak Kecerdasan Dokumen adalah API analisis dokumen berbasis pembelajaran mesin tingkat lanjut yang tersedia di cloud Kecerdasan Dokumen. Ini memungkinkan Anda untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. API menggabungkan versi yang disempurnakan dari kemampuan Pengenalan Karakter Optik (OCR) kami yang canggih dengan model pembelajaran mendalam untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.
Analisis tata letak dokumen
Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang diminati dan hubungan antar-hubungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:
- Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
- Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.
Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.
Opsi pengembangan
Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model tata letak | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model tata letak | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber |
---|---|
Model tata letak | • Alat pelabelan Kecerdasan Dokumen• REST API • SDK pustaka klien• Kontainer Docker Kecerdasan Dokumen |
Persyaratan input
Format file yang didukung:
Model PDF Gambar: JPEG/JPG
, ,BMP
PNG
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
- Format file yang didukung: JPEG, PNG, PDF, dan TIFF.
- Jumlah halaman yang didukung: Untuk PDF dan TIFF, hingga 2.000 halaman diproses. Untuk pelanggan level gratis, hanya dua halaman pertama yang diproses.
- Ukuran file yang didukung: ukuran file harus kurang dari 50 MB dan dimensi minimal 50 x 50 piksel dan paling banyak 10.000 x 10.000 piksel.
Mulai menggunakan model Tata Letak
Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur diekstrak dari dokumen menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Document Intelligence Studio tersedia dengan API v3.0 dan versi yang lebih baru.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Alat Pelabelan Sampel Kecerdasan Dokumen
Navigasikan ke alat sampel Kecerdasan Dokumen.
Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.
Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.
Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.
Di bidang Sumber, pilih URL dari menu dropdown Anda dapat menggunakan dokumen sampel kami:
Pilih tombol Ambil .
Pilih Jalankan Tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil
Analyze Layout
API untuk menganalisis dokumen.Lihat hasilnya - lihat teks yang diekstrak yang disorot, tanda pilihan yang terdeteksi, dan tabel yang terdeteksi.
Bahasa dan lokal yang didukung
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber |
---|---|
API Tata Letak | • Alat pelabelan Kecerdasan Dokumen• REST API • SDK pustaka klien• Kontainer Docker Kecerdasan Dokumen |
Ekstraksi data
Model tata letak mengekstrak teks, tanda pilihan, tabel, paragraf, dan jenis paragraf (roles
) dari dokumen Anda.
Catatan
2024-02-29-preview
Versi , 2023-10-31-preview
, dan yang lebih baru mendukung file Microsoft office (DOCX, XLSX, PPTX) dan HTML. Fitur berikut tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
- Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
- Rentang halaman (
pages
) tidak didukung sebagai parameter. - Tidak ada
lines
objek.
Halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan .. /termasuk sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Mengekstrak halaman yang dipilih dari dokumen
Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.
Paragraf
Model Tata Letak mengekstrak semua blok teks yang diidentifikasi dalam koleksi paragraphs
sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan .. /termasuk teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti content
tingkat atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Peran paragraf
Deteksi objek halaman berbasis pembelajaran mesin baru mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model Tata Letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs
koleksi dengan peran atau jenis khusus yang diprediksi oleh model. Yang terbaik adalah menggunakan peran paragraf dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung:
Peran yang diprediksi | Keterangan | Jenis file yang didukung |
---|---|---|
title |
Judul utama di halaman | pdf, gambar, docx, pptx, xlsx, html |
sectionHeading |
Satu atau beberapa subjudul di halaman | pdf, image, docx, xlsx, html |
footnote |
Teks di dekat bagian bawah halaman | pdf, gambar |
pageHeader |
Teks di dekat tepi atas halaman | pdf, image, docx |
pageFooter |
Teks di dekat tepi bawah halaman | pdf, gambar, docx, pptx, html |
pageNumber |
Nomor halaman | pdf, gambar |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Teks, baris, dan kata
Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Koleksi styles
.. /menyertakan gaya tulisan tangan untuk baris jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, Kecerdasan Dokumen versi 2024-02-29-preview dan model Tata Letak pratinjau 2023-10-31 mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Gaya tulisan tangan untuk baris teks
Respons .. /termasuk mengklasifikasikan apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya. Lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Tanda pilihan
Model Tata Letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages
untuk setiap halaman. Mereka termasuk batas polygon
, confidence
, dan pilihan state
(selected/unselected
). Representasi teks (yaitu, :selected:
dan :unselected
) juga disertakan sebagai indeks awal (offset
) dan length
yang mereferensikan properti tingkat content
atas yang berisi teks lengkap dari dokumen.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
Tabel
Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model Tata Letak mengekstrak tabel di bagian pageResults
output JSON. Informasi tabel yang diekstrak .. /menyertakan jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan poligon pembatasnya adalah output bersama dengan informasi apakah area dikenali sebagai atau columnHeader
tidak. Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan informasi span
yang berisi indeks awal (offset
). Model ini juga mengeluarkan length
dalam konten tingkat atas yang berisi teks lengkap dari dokumen.
Berikut adalah beberapa faktor yang perlu dipertimbangkan saat menggunakan kemampuan ekstraksi bale Kecerdasan Dokumen:
Apakah data yang ingin Anda ekstrak disajikan sebagai tabel, dan apakah struktur tabel bermakna?
Bisakah data pas dalam kisi dua dimensi jika data tidak dalam format tabel?
Apakah tabel Anda mencakup beberapa halaman? Jika demikian, untuk menghindari harus melabeli semua halaman, pisahkan PDF menjadi halaman sebelum mengirimkannya ke Kecerdasan Dokumen. Setelah analisis, pasca-proses halaman ke satu tabel.
Lihat bidang Tabular jika Anda membuat model kustom. Tabel dinamis memiliki jumlah variabel baris untuk setiap kolom. Tabel tetap memiliki jumlah baris konstan untuk setiap kolom.
Catatan
- Analisis tabel tidak didukung jika file input adalah XLSX.
- Dimulai dengan pratinjau 2024-07-31, wilayah pembatas untuk gambar dan tabel hanya mencakup konten inti dan mengecualikan keterangan dan catatan kaki terkait.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
Anotasi (hanya tersedia di 2023-02-28-preview
API.)
Model Tata Letak mengekstrak anotasi dalam dokumen, seperti pemeriksaan dan silang. Respons .. /termasuk jenis anotasi, bersama dengan skor keyakinan dan poligon pembatas.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
Output urutan baca alami (hanya Latin)
Anda dapat menentukan urutan output baris teks dengan parameter kueri readingOrder
. Gunakan natural
untuk output urutan membaca yang lebih dapat dipahami manusia seperti yang ditunjukkan pada contoh berikut. Fitur ini hanya didukung untuk bahasa Latin.
Pilih nomor halaman atau rentang untuk ekstraksi teks
Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks. Contoh berikut memperlihatkan dokumen dengan 10 halaman, dengan teks yang diekstrak untuk kedua kasus - semua halaman (1-10) dan halaman yang dipilih (3-6).
Operasi Dapatkan Hasil Analisis Tata Letak
Langkah kedua adalah memanggil operasi Dapatkan Hasil Analisis Tata Letak. Operasi ini mengambil sebagai input ID Hasil yang Analyze Layout
dibuat operasi. Operasi menghasilkan respons JSON yang berisi bidang status dengan kemungkinan nilai berikut.
Bidang | Jenis | Nilai yang dapat dipakai |
---|---|---|
status | string | notStarted : Operasi analisis tidak dimulai.running : Operasi analisis sedang berlangsung. failed : Operasi analisis gagal. succeeded : Operasi analisis berhasil. |
Panggil operasi ini secara berulang hingga menghasilkan nilai succeeded
. Untuk menghindari melebihi tarif permintaan per detik (RPS), gunakan interval 3 hingga 5 detik.
Ketika bidang status memiliki succeeded
nilai , respons JSON .. /termasuk tata letak, teks, tabel, dan tanda pilihan yang diekstrak. Data yang diekstrak . /includes extracted text lines and words, bounding boxes, text appearance with handwritten indication, tables, and selection marks with selected/unselected indicated.
Klasifikasi tulisan tangan untuk baris teks (hanya dalam bahasa Latin)
Respons .. /termasuk mengklasifikasikan apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Fitur ini hanya didukung untuk bahasa Latin. Contoh berikut menunjukkan klasifikasi tulisan tangan untuk teks dalam gambar.
Sampel output JSON
Respons terhadap operasi Dapatkan Hasil Analisis Tata Letak adalah representasi terstruktur dari dokumen dengan semua informasi yang diekstrak. Lihat di sini untuk file dokumen sampel dan output terstruktur output tata letak sampel.
Output JSON memiliki dua bagian:
readResults
node berisi semua teks yang dikenali dan tanda pilihan. Hierarki presentasi teks adalah halaman, lalu baris, lalu kata individual.pageResults
node berisi tabel dan sel yang diekstrak dengan kotak pembatas, keyakinan, dan referensi ke baris dan kata di bidang "readResults".
Contoh Keluaran
Teks
API tata letak mengekstrak teks dari dokumen dan gambar dengan berbagai sudut dan warna teks. API menerima foto dokumen, faks, teks cetak dan/atau tulisan tangan (hanya dalam bahasa Inggris), dan mode campuran. Teks diekstrak dengan informasi yang diberikan pada garis, kata, kotak pembatas, skor keyakinan, dan gaya (tulisan tangan atau lainnya). Semua informasi teks disertakan dalam bagian readResults
dari output JSON.
Tabel dengan header
API Tata Letak mengekstrak tabel di bagian pageResults
dari output JSON. Dokumen dapat dipindai, difoto, atau di buat digital. Tabel dapat menjadi rumit dengan sel atau kolom yang digabungkan, dengan atau tanpa batas, dan dengan sudut ganjil. Informasi tabel yang diekstrak .. /menyertakan jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan kotak pembatasnya adalah output bersama dengan apakah area dikenali sebagai bagian dari header atau tidak. Model sel header yang diprediksi dapat menjangkau beberapa baris dan belum tentu merupakan baris pertama dalam tabel. Model juga bekerja dengan tabel yang diputar. Setiap sel tabel juga .. /menyertakan teks lengkap dengan referensi ke kata-kata individual di bagian .readResults
Tanda pilihan
API tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak termasuk kotak pembatas, keyakinan, dan status (dipilih/tidak dipilih). Informasi tanda pilihan diekstrak di bagian readResults
dari output JSON.
Panduan migrasi
- Ikuti panduan migrasi Kecerdasan Dokumen v3.1 kami untuk mempelajari cara menggunakan versi v3.1 di aplikasi dan alur kerja Anda.
Langkah berikutnya
Pelajari cara memproses formulir dan dokumen Anda sendiri dengan Studio Kecerdasan Dokumen.
Selesaikan mulai cepat Kecerdasan Dokumen dan mulai membuat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.
Pelajari cara memproses formulir dan dokumen Anda sendiri dengan alat Pelabelan Sampel Kecerdasan Dokumen.
Selesaikan mulai cepat Kecerdasan Dokumen dan mulai membuat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.