Model templat kustom Kecerdasan Dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
- Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
- US Timur
- US Barat2
- Eropa Barat
- US Tengah Utara
Konten ini berlaku untuk: v4.0 (pratinjau) | Versi sebelumnya: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Konten ini berlaku untuk: v3.1 (GA) | Versi terbaru: v4.0 (pratinjau) | Versi sebelumnya: v3.0 v2.1
Konten ini berlaku untuk: v3.0 (GA) | Versi terbaru: v4.0 (pratinjau) v3.1 | Versi sebelumnya: v2.1
Konten ini berlaku untuk: v2.1 | Versi terbaru: v4.0 (pratinjau)
Templat kustom (sebelumnya formulir kustom) adalah model dokumen yang mudah dilatih yang secara akurat mengekstrak pasangan kunci-nilai berlabel, tanda pilihan, tabel, wilayah, dan tanda tangan dari dokumen. Model template menggunakan isyarat tata letak untuk mengekstrak nilai dari dokumen dan cocok untuk mengekstrak bidang dari dokumen yang sangat terstruktur dengan template visual yang ditentukan.
Model template kustom memiliki format dan strategi pelabelan yang sama dengan model neural khusus, dengan dukungan untuk lebih banyak jenis bidang dan bahasa.
Kemampuan model
Model templat kustom mendukung pasangan kunci nilai, tanda pilihan, tabel, bidang tanda tangan, dan wilayah.
Bidang formulir | Tanda pilihan | Bidang bertabel (Tabel) | Tanda Tangan | Wilayah yang dipilih | Bidang yang tumpang tindih |
---|---|---|---|---|---|
Didukung | Didukung | Didukung | Didukung | Didukung | Tidak didukung |
Bidang tabular
Dengan rilis versi API v3.0 dan yang lebih baru, model templat kustom menambahkan dukungan untuk bidang tabular lintas halaman (tabel):
- Untuk melabeli tabel yang mencakup beberapa halaman, beri label pada setiap baris tabel di seluruh halaman yang berbeda dalam satu tabel.
- Sebagai praktik terbaik, pastikan himpunan data Anda berisi beberapa sampel variasi yang diharapkan. Misalnya, sertakan sampel yang seluruh tabelnya berada di satu halaman dan yang tabelnya menjangkau dua halaman atau lebih jika Anda ingin melihat variasi tersebut dalam dokumen.
Bidang tabular juga berguna saat mengekstrak informasi berulang dalam dokumen yang tidak dikenali sebagai tabel. Misalnya, bagian berulang dari pengalaman kerja dalam resume dapat diberi label dan diekstraksi sebagai bidang bertabel.
Berurusan dengan variasi
Model templat mengandalkan templat visual yang ditentukan, perubahan pada templat menghasilkan akurasi yang lebih rendah. Dalam instans tersebut, pisahkan himpunan data pelatihan Anda untuk menyertakan setidaknya lima sampel dari setiap templat dan latih model untuk masing-masing variasi. Anda kemudian dapat menyusun model menjadi satu titik akhir. Untuk variasi halus, seperti dokumen dan gambar PDF digital, sebaiknya sertakan setidaknya lima contoh dari setiap jenis dalam himpunan data pelatihan yang sama.
Persyaratan input
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Format file yang didukung:
Model PDF Gambar:
JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview atau yang lebih baru) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Adat ✔ ✔ ✱ File Microsoft Office saat ini tidak didukung untuk model atau versi lain.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar
8
-point pada 150 titik per inci (DPI
).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.
Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1GB
dengan maksimum 10.000 halaman.
Melatih model
Model templat kustom umumnya tersedia dimulai dengan API v2.0 dan versi yang lebih baru. Jika Anda memulai dengan proyek baru atau memiliki himpunan data berlabel yang sudah ada, gunakan API v3.1 atau v3.0 dengan Document Intelligence Studio untuk melatih model templat kustom.
Model | REST API | SDK | Model Label dan Uji |
---|---|---|---|
Templat kustom | API v3.1 | SDK Kecerdasan Dokumen | Studio Kecerdasan Dokumen |
Dengan API v3.0 dan yang lebih baru, operasi build untuk melatih model mendukung properti baru buildMode
, untuk melatih model templat kustom, atur ke buildMode
template
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Model templat kustom umumnya tersedia dengan API v3.1. Jika Anda memulai dengan proyek baru atau memiliki himpunan data berlabel yang sudah ada, gunakan API v3.1 atau v3.0 dengan Document Intelligence Studio untuk melatih model templat kustom.
Model | REST API | SDK | Model Label dan Uji |
---|---|---|---|
Templat kustom | API v3.1 | SDK Kecerdasan Dokumen | Studio Kecerdasan Dokumen |
Dengan API v3.0 dan yang lebih baru, operasi build untuk melatih model mendukung properti baru buildMode
, untuk melatih model templat kustom, atur ke buildMode
template
.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Bahasa dan lokal yang didukung
Lihat halaman Dukungan Bahasa—model kustom untuk daftar lengkap bahasa yang didukung.
Model kustom (templat) umumnya tersedia dengan API v2.1.
Model | REST API | SDK | Model Label dan Uji |
---|---|---|---|
Model kustom (templat) | Kecerdasan Dokumen 2.1 | SDK Kecerdasan Dokumen | Alat pelabelan Sampel Kecerdasan Dokumen |
Langkah berikutnya
Pelajari cara membuat dan menyusun model kustom: