Kemampuan add-on Kecerdasan Dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
- Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
- Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
- US Timur
- US Barat2
- Eropa Barat
Konten ini berlaku untuk:v4.0 (pratinjau) | Versi sebelumnya:v3.1 (GA)
Konten ini berlaku untuk:v3.1 (GA) | Versi terbaru:v4.0 (pratinjau)
Catatan
Kemampuan add-on tersedia dalam semua model kecuali untuk model kartu Nama.
Kecerdasan Dokumen mendukung kemampuan analisis yang lebih canggih dan modular. Gunakan fitur add-on untuk memperluas hasil untuk menyertakan lebih banyak fitur yang diekstrak dari dokumen Anda. Beberapa fitur add-on dikenakan biaya tambahan. Fitur opsional ini dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Untuk mengaktifkan fitur, tambahkan nama fitur terkait ke features
properti string kueri. Anda dapat mengaktifkan lebih dari satu fitur add-on pada permintaan dengan menyediakan daftar fitur yang dipisahkan koma. Kemampuan add-on berikut tersedia untuk 2023-07-31 (GA)
rilis dan yang lebih baru.
Catatan
Tidak semua kemampuan add-on didukung oleh semua model. Untuk informasi selengkapnya, lihatekstraksi data model.
Kemampuan add-on berikut tersedia untuk2024-02-29-preview
, 2024-02-29-preview
, dan rilis yang lebih baru:
Catatan
Implementasi bidang kueri di API pratinjau 2023-10-30 berbeda dari rilis pratinjau terakhir. Implementasi baru lebih murah dan bekerja dengan baik dengan dokumen terstruktur.
Kemampuan Add-on | Add-On/Free | Pratinjau 2024-02-29 | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Ekstraksi properti font | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi rumus | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi resolusi tinggi | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi kode batang | Gratis | ✔️ | ✔️ | n/a | n/a |
Deteksi bahasa | Gratis | ✔️ | ✔️ | n/a | n/a |
Pasangan kunci-nilai | Gratis | ✔️ | n/a | n/a | n/a |
Bidang kueri | Add-on* | ✔️ | n/a | n/a | n/a |
Add-On* - Bidang kueri dihargai berbeda dari fitur add-on lainnya. Lihat harga untuk detailnya.
Ekstraksi resolusi tinggi
Tugas mengenali teks kecil dari dokumen berukuran besar, seperti gambar rekayasa, adalah tantangan. Seringkali teks dicampur dengan elemen grafis lainnya dan memiliki berbagai font, ukuran, dan orientasi. Selain itu, teks dapat dipecah menjadi bagian terpisah atau terhubung dengan simbol lain. Kecerdasan Dokumen sekarang mendukung ekstraksi konten dari jenis dokumen ini dengan ocr.highResolution
kemampuan. Anda mendapatkan peningkatan kualitas ekstraksi konten dari dokumen A1/A2/A3 dengan mengaktifkan kemampuan add-on ini.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Ekstraksi rumus
Kemampuan mengekstrak ocr.formula
semua rumus yang diidentifikasi, seperti persamaan matematika, dalam formulas
koleksi sebagai objek tingkat atas di bawah content
. Di dalam content
, rumus yang terdeteksi direpresentasikan sebagai :formula:
. Setiap entri dalam koleksi ini mewakili rumus yang menyertakan tipe rumus sebagai inline
atau display
, dan representasi LaTeX-nya sebagai value
bersama dengan koordinatnya polygon
. Awalnya, rumus muncul di akhir setiap halaman.
Catatan
Skornya confidence
dikodekan secara permanen.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Ekstraksi properti font
Kemampuan ocr.font
mengekstrak semua properti font teks yang diekstrak dalam styles
koleksi sebagai objek tingkat atas di bawah content
. Setiap objek gaya menentukan properti font tunggal, rentang teks yang berlaku untuknya, dan skor keyakinan yang sesuai. Properti gaya yang ada diperluas dengan lebih banyak properti font seperti similarFontFamily
untuk font teks, fontStyle
untuk gaya seperti miring dan normal, fontWeight
untuk tebal atau normal, color
untuk warna teks, dan backgroundColor
untuk warna kotak pembatas teks.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Ekstraksi properti kode batang
Kemampuan mengekstrak ocr.barcode
semua kode batang yang diidentifikasi dalam barcodes
koleksi sebagai objek tingkat atas di bawah content
. content
Di dalam , kode batang yang terdeteksi direpresentasikan sebagai :barcode:
. Setiap entri dalam koleksi ini mewakili kode batang dan menyertakan jenis kode batang sebagai kind
dan konten kode batang yang disematkan bersama value
dengan koordinatnya polygon
. Awalnya, kode batang muncul di akhir setiap halaman. dikodekan confidence
secara permanen untuk sebagai 1.
Jenis kode batang yang didukung
Jenis Kode Batang | Contoh |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Diperluas |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Deteksi bahasa
languages
Menambahkan fitur ke analyzeResult
permintaan memprediksi bahasa utama yang terdeteksi untuk setiap baris teks bersama dengan confidence
dalam koleksi di languages
bawah analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Pasangan kunci-nilai
Dalam versi API sebelumnya, model dokumen bawaan mengekstrak pasangan kunci-nilai dari formulir dan dokumen. Dengan penambahan keyValuePairs
fitur ke tata letak bawaan, model tata letak sekarang menghasilkan hasil yang sama.
Pasangan kunci-nilai adalah rentang tertentu dalam dokumen yang mengidentifikasi label atau kunci dan respons atau nilai terkaitnya. Dalam bentuk terstruktur, pasangan ini dapat menjadi label dan nilai yang dimasukkan pengguna untuk bidang tersebut. Dalam dokumen tidak terstruktur, pasangan ini dapat menjadi tanggal kontrak dieksekusi berdasarkan teks dalam paragraf. Model AI dilatih untuk mengekstrak kunci dan nilai yang dapat diidentifikasi berdasarkan berbagai jenis, format, dan struktur dokumen.
Kunci juga dapat ada dalam isolasi ketika model mendeteksi bahwa ada kunci, tanpa nilai terkait atau saat memproses bidang opsional. Misalnya, bidang nama tengah dapat dibiarkan kosong pada formulir dalam beberapa instans. Pasangan kunci-nilai adalah rentang teks yang terkandung dalam dokumen. Untuk dokumen di mana nilai yang sama dijelaskan dengan cara yang berbeda, misalnya, pelanggan/pengguna, kunci terkait adalah pelanggan atau pengguna (berdasarkan konteks).
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Bidang Kueri
Bidang kueri adalah kemampuan add-on untuk memperluas skema yang diekstrak dari model bawaan atau menentukan nama kunci tertentu saat nama kunci adalah variabel. Untuk menggunakan bidang kueri, atur fitur ke queryFields
dan berikan daftar nama bidang yang dipisahkan koma di queryFields
properti .
Kecerdasan Dokumen sekarang mendukung ekstraksi bidang kueri. Dengan ekstraksi bidang kueri, Anda bisa menambahkan bidang ke proses ekstraksi menggunakan permintaan kueri tanpa perlu menambahkan pelatihan.
Gunakan bidang kueri saat Anda perlu memperluas skema model bawaan atau kustom atau perlu mengekstrak beberapa bidang dengan output tata letak.
Bidang kueri adalah kemampuan add-on premium. Untuk hasil terbaik, tentukan bidang yang ingin Anda ekstrak menggunakan kasus unta atau nama bidang kasus Pascal untuk nama bidang multi-kata.
Bidang kueri mendukung maksimal 20 bidang per permintaan. Jika dokumen berisi nilai untuk bidang , bidang dan nilai dikembalikan.
Rilis ini memiliki implementasi baru dari kemampuan bidang kueri yang harganya lebih rendah dari implementasi sebelumnya dan harus divalidasi.
Catatan
Ekstraksi bidang kueri Document Intelligence Studio saat ini tersedia dengan API Model Tata Letak dan Bawaan dan rilis 2024-02-29-preview
2023-10-31-preview
yang lebih baru kecuali untuk US tax
model (model W2, 1098s, dan 1099s).
Ekstraksi bidang kueri
Untuk ekstraksi bidang kueri, tentukan bidang yang ingin Anda ekstrak dan Kecerdasan Dokumen menganalisis dokumen yang sesuai. Berikut contohnya:
Jika Anda memproses kontrak di Studio Kecerdasan Dokumen, gunakan
2024-02-29-preview
versi atau2023-10-31-preview
:Anda dapat meneruskan daftar label bidang seperti
Party1
, ,Party2
,TermsOfUse
PaymentTerms
,PaymentDate
, danTermEndDate
sebagai bagiananalyze document
dari permintaan.Kecerdasan Dokumen dapat menganalisis dan mengekstrak data bidang dan mengembalikan nilai dalam output JSON terstruktur.
Selain bidang kueri, respons menyertakan teks, tabel, tanda pilihan, dan data relevan lainnya.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Langkah berikutnya
Pelajari selengkapnya: Membaca model Tata Letak model
Sampel SDK: python