Bagikan melalui


Kemampuan add-on Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
  • Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
    • US Timur
    • US Barat2
    • Eropa Barat
    • US Tengah Utara

Konten ini berlaku untuk: tanda centang v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.1 (GA)

Konten ini berlaku untuk: tanda centang v3.1 (GA) | Versi terbaru: tanda centang ungu v4.0 (pratinjau)

Catatan

Kemampuan add-on tersedia dalam semua model kecuali untuk model kartu Nama.

Kemampuan

Kecerdasan Dokumen mendukung kemampuan analisis yang lebih canggih dan modular. Gunakan fitur add-on untuk memperluas hasil untuk menyertakan lebih banyak fitur yang diekstrak dari dokumen Anda. Beberapa fitur add-on dikenakan biaya tambahan. Fitur opsional ini dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Untuk mengaktifkan fitur, tambahkan nama fitur terkait ke features properti string kueri. Anda dapat mengaktifkan lebih dari satu fitur add-on pada permintaan dengan menyediakan daftar fitur yang dipisahkan koma. Kemampuan add-on berikut tersedia untuk 2023-07-31 (GA) rilis dan yang lebih baru.

Untuk 2024-07-31-preview rilis dan yang lebih baru, model Baca mendukung output PDF yang dapat dicari:

Catatan

  • Tidak semua kemampuan add-on didukung oleh semua model. Untuk informasi selengkapnya, lihat ekstraksi data model.

  • Kapabilitas add-on saat ini tidak didukung untuk jenis file Microsoft Office.

Kecerdasan Dokumen mendukung fitur opsional yang dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Kemampuan add-on berikut tersedia untuk 2023-10-31-previewrilis , dan yang lebih baru:

Catatan

Implementasi bidang kueri di API pratinjau 2023-10-30 berbeda dari rilis pratinjau terakhir. Implementasi baru lebih murah dan bekerja dengan baik dengan dokumen terstruktur.

Ketersediaan versi

Kemampuan Add-on Add-On/Free Pratinjau 2024-02-29 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Ekstraksi properti font Add-On ✔️ ✔️ n/a n/a
Ekstraksi formula Add-On ✔️ ✔️ n/a n/a
Ekstraksi resolusi tinggi Add-On ✔️ ✔️ n/a n/a
Ekstraksi kode batang Gratis ✔️ ✔️ n/a n/a
Deteksi bahasa Gratis ✔️ ✔️ n/a n/a
Pasangan nilai kunci Gratis ✔️ n/a n/a n/a
Bidang kueri Add-On* ✔️ n/a n/a n/a

✱ Add-On - Bidang kueri dihargai berbeda dari fitur add-on lainnya. Lihat harga untuk detailnya.

Format file yang didukung

  • PDF

  • Gambar: JPEG/JPG, , BMPPNG, TIFF,HEIF

✱ File Microsoft Office saat ini tidak didukung.

Ekstraksi resolusi tinggi

Tugas mengenali teks kecil dari dokumen berukuran besar, seperti gambar rekayasa, adalah tantangan. Seringkali teks dicampur dengan elemen grafis lainnya dan memiliki berbagai font, ukuran, dan orientasi. Selain itu, teks dapat dipecah menjadi bagian terpisah atau terhubung dengan simbol lain. Kecerdasan Dokumen sekarang mendukung ekstraksi konten dari jenis dokumen ini dengan ocr.highResolution kemampuan. Anda mendapatkan peningkatan kualitas ekstraksi konten dari dokumen A1/A2/A3 dengan mengaktifkan kemampuan add-on ini.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Ekstraksi formula

Kemampuan mengekstrak ocr.formula semua rumus yang diidentifikasi, seperti persamaan matematika, dalam formulas koleksi sebagai objek tingkat atas di bawah content. Di dalam content, rumus yang terdeteksi direpresentasikan sebagai :formula:. Setiap entri dalam koleksi ini mewakili rumus yang menyertakan tipe rumus sebagai inline atau display, dan representasi LaTeX-nya sebagai value bersama dengan koordinatnya polygon . Awalnya, rumus muncul di akhir setiap halaman.

Catatan

Skornya confidence dikodekan secara permanen.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Ekstraksi properti font

Kemampuan ocr.font mengekstrak semua properti font teks yang diekstrak dalam styles koleksi sebagai objek tingkat atas di bawah content. Setiap objek gaya menentukan properti font tunggal, rentang teks yang berlaku untuknya, dan skor keyakinan yang sesuai. Properti gaya yang ada diperluas dengan lebih banyak properti font seperti similarFontFamily untuk font teks, fontStyle untuk gaya seperti miring dan normal, fontWeight untuk tebal atau normal, color untuk warna teks, dan backgroundColor untuk warna kotak pembatas teks.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Ekstraksi properti kode batang

Kemampuan mengekstrak ocr.barcode semua kode batang yang diidentifikasi dalam barcodes koleksi sebagai objek tingkat atas di bawah content. contentDi dalam , kode batang yang terdeteksi direpresentasikan sebagai :barcode:. Setiap entri dalam koleksi ini mewakili kode batang dan menyertakan jenis kode batang sebagai kind dan konten kode batang yang disematkan bersama value dengan koordinatnya polygon . Awalnya, kode batang muncul di akhir setiap halaman. dikodekan confidence secara permanen untuk sebagai 1.

Jenis kode batang yang didukung

Jenis Kode Batang Contoh
QR Code Cuplikan layar Kode QR.
Code 39 Cuplikan layar Kode 39.
Code 93 Cuplikan layar Kode 93.
Code 128 Cuplikan layar Kode 128.
UPC (UPC-A & UPC-E) Cuplikan layar UPC.
PDF417 Cuplikan layar PDF417.
EAN-8 Cuplikan layar kode batang pasal-artikel Eropa ean-8.
EAN-13 Cuplikan layar ean-13 kode batang artikel-nomor Eropa.
Codabar Cuplikan layar Codabar.
Databar Cuplikan layar bilah Data.
Databar Diperluas Cuplikan layar bilah Data Diperluas.
ITF Cuplikan layar kode batang (ITF) interleaved-two-of-five.
Data Matrix Cuplikan layar Matriks Data.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Deteksi bahasa

languages Menambahkan fitur ke analyzeResult permintaan memprediksi bahasa utama yang terdeteksi untuk setiap baris teks bersama dengan confidence dalam koleksi di languages bawah analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF yang dapat dicari

Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.

Penting

  • Saat ini, kemampuan PDF yang dapat dicari hanya didukung oleh model prebuilt-readRead OCR . Saat menggunakan fitur ini, tentukan modelId sebagai prebuilt-read, karena jenis model lain akan mengembalikan kesalahan untuk versi pratinjau ini.
  • PDF yang dapat dicari disertakan dengan model pratinjau prebuilt-read 2024-07-31 tanpa biaya penggunaan untuk konsumsi PDF umum.

Gunakan PDF yang dapat dicari

Untuk menggunakan PDF yang dapat dicari, buat POST permintaan menggunakan Analyze operasi dan tentukan format output sebagai pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Analyze Setelah operasi selesai, buat GET permintaan untuk mengambil hasil Analyze operasi.

Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Pasangan kunci-nilai

Dalam versi API sebelumnya, prebuilt-document model mengekstrak pasangan kunci-nilai dari formulir dan dokumen. Dengan penambahan keyValuePairs fitur ke tata letak bawaan, model tata letak sekarang menghasilkan hasil yang sama.

Pasangan kunci-nilai adalah rentang tertentu dalam dokumen yang mengidentifikasi label atau kunci dan respons atau nilai terkaitnya. Dalam bentuk terstruktur, pasangan ini dapat menjadi label dan nilai yang dimasukkan pengguna untuk bidang tersebut. Dalam dokumen tidak terstruktur, pasangan ini dapat menjadi tanggal kontrak dieksekusi berdasarkan teks dalam paragraf. Model AI dilatih untuk mengekstrak kunci dan nilai yang dapat diidentifikasi berdasarkan berbagai jenis, format, dan struktur dokumen.

Kunci juga dapat ada dalam isolasi ketika model mendeteksi bahwa ada kunci, tanpa nilai terkait atau saat memproses bidang opsional. Misalnya, bidang nama tengah dapat dibiarkan kosong pada formulir dalam beberapa instans. Pasangan kunci-nilai adalah rentang teks yang terkandung dalam dokumen. Untuk dokumen di mana nilai yang sama dijelaskan dengan cara yang berbeda, misalnya, pelanggan/pengguna, kunci terkait adalah pelanggan atau pengguna (berdasarkan konteks).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Bidang Kueri

Bidang kueri adalah kemampuan add-on untuk memperluas skema yang diekstrak dari model bawaan atau menentukan nama kunci tertentu saat nama kunci adalah variabel. Untuk menggunakan bidang kueri, atur fitur ke queryFields dan berikan daftar nama bidang yang dipisahkan koma di queryFields properti .

  • Kecerdasan Dokumen sekarang mendukung ekstraksi bidang kueri. Dengan ekstraksi bidang kueri, Anda bisa menambahkan bidang ke proses ekstraksi menggunakan permintaan kueri tanpa perlu menambahkan pelatihan.

  • Gunakan bidang kueri saat Anda perlu memperluas skema model bawaan atau kustom atau perlu mengekstrak beberapa bidang dengan output tata letak.

  • Bidang kueri adalah kemampuan add-on premium. Untuk hasil terbaik, tentukan bidang yang ingin Anda ekstrak menggunakan kasus unta atau nama bidang kasus Pascal untuk nama bidang multi-kata.

  • Bidang kueri mendukung maksimal 20 bidang per permintaan. Jika dokumen berisi nilai untuk bidang , bidang dan nilai dikembalikan.

  • Rilis ini memiliki implementasi baru dari kemampuan bidang kueri yang harganya lebih rendah dari implementasi sebelumnya dan harus divalidasi.

Catatan

Ekstraksi bidang kueri Document Intelligence Studio saat ini tersedia dengan API Model Tata Letak dan Bawaan dan rilis 2024-02-29-preview 2023-10-31-preview yang lebih baru kecuali untuk US tax model (model W2, 1098s, dan 1099s).

Ekstraksi bidang kueri

Untuk ekstraksi bidang kueri, tentukan bidang yang ingin Anda ekstrak dan Kecerdasan Dokumen menganalisis dokumen yang sesuai. Berikut contohnya:

  • Jika Anda memproses kontrak di Studio Kecerdasan Dokumen, gunakan 2024-02-29-preview versi atau 2023-10-31-preview :

    Cuplikan layar tombol bidang kueri di Studio Kecerdasan Dokumen.

  • Anda dapat meneruskan daftar label bidang seperti Party1, , Party2, TermsOfUsePaymentTerms, PaymentDate, dan TermEndDate sebagai bagian analyze document dari permintaan.

    Cuplikan layar jendela pemilihan bidang kueri di Studio Kecerdasan Dokumen.

  • Kecerdasan Dokumen dapat menganalisis dan mengekstrak data bidang dan mengembalikan nilai dalam output JSON terstruktur.

  • Selain bidang kueri, respons menyertakan teks, tabel, tanda pilihan, dan data relevan lainnya.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Langkah berikutnya

Pelajari selengkapnya: Membaca model Tata Letak model

Sampel SDK: python

Temukan sampel lainnya: Kemampuan add-on

Temukan sampel lainnya: Kemampuan add-on