Kemampuan add-on Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
  • Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
  • Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
  • US Timur
  • US Barat2
  • Eropa Barat

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau)

Catatan

Kemampuan add-on tersedia dalam semua model kecuali untuk model kartu Nama.

Kecerdasan Dokumen mendukung kemampuan analisis yang lebih canggih dan modular. Gunakan fitur add-on untuk memperluas hasil untuk menyertakan lebih banyak fitur yang diekstrak dari dokumen Anda. Beberapa fitur add-on dikenakan biaya tambahan. Fitur opsional ini dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Untuk mengaktifkan fitur, tambahkan nama fitur terkait ke features properti string kueri. Anda dapat mengaktifkan lebih dari satu fitur add-on pada permintaan dengan menyediakan daftar fitur yang dipisahkan koma. Kemampuan add-on berikut tersedia untuk 2023-07-31 (GA) rilis dan yang lebih baru.

Catatan

Tidak semua kemampuan add-on didukung oleh semua model. Untuk informasi selengkapnya, lihatekstraksi data model.

Kemampuan add-on berikut tersedia untuk2024-02-29-preview, 2024-02-29-preview, dan rilis yang lebih baru:

Catatan

Implementasi bidang kueri di API pratinjau 2023-10-30 berbeda dari rilis pratinjau terakhir. Implementasi baru lebih murah dan bekerja dengan baik dengan dokumen terstruktur.

Kemampuan Add-on Add-On/Free Pratinjau 2024-02-29 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Ekstraksi properti font Add-on ✔️ ✔️ n/a n/a
Ekstraksi rumus Add-on ✔️ ✔️ n/a n/a
Ekstraksi resolusi tinggi Add-on ✔️ ✔️ n/a n/a
Ekstraksi kode batang Gratis ✔️ ✔️ n/a n/a
Deteksi bahasa Gratis ✔️ ✔️ n/a n/a
Pasangan kunci-nilai Gratis ✔️ n/a n/a n/a
Bidang kueri Add-on* ✔️ n/a n/a n/a

Add-On* - Bidang kueri dihargai berbeda dari fitur add-on lainnya. Lihat harga untuk detailnya.

Ekstraksi resolusi tinggi

Tugas mengenali teks kecil dari dokumen berukuran besar, seperti gambar rekayasa, adalah tantangan. Seringkali teks dicampur dengan elemen grafis lainnya dan memiliki berbagai font, ukuran, dan orientasi. Selain itu, teks dapat dipecah menjadi bagian terpisah atau terhubung dengan simbol lain. Kecerdasan Dokumen sekarang mendukung ekstraksi konten dari jenis dokumen ini dengan ocr.highResolution kemampuan. Anda mendapatkan peningkatan kualitas ekstraksi konten dari dokumen A1/A2/A3 dengan mengaktifkan kemampuan add-on ini.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Ekstraksi rumus

Kemampuan mengekstrak ocr.formula semua rumus yang diidentifikasi, seperti persamaan matematika, dalam formulas koleksi sebagai objek tingkat atas di bawah content. Di dalam content, rumus yang terdeteksi direpresentasikan sebagai :formula:. Setiap entri dalam koleksi ini mewakili rumus yang menyertakan tipe rumus sebagai inline atau display, dan representasi LaTeX-nya sebagai value bersama dengan koordinatnya polygon . Awalnya, rumus muncul di akhir setiap halaman.

Catatan

Skornya confidence dikodekan secara permanen.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Ekstraksi properti font

Kemampuan ocr.font mengekstrak semua properti font teks yang diekstrak dalam styles koleksi sebagai objek tingkat atas di bawah content. Setiap objek gaya menentukan properti font tunggal, rentang teks yang berlaku untuknya, dan skor keyakinan yang sesuai. Properti gaya yang ada diperluas dengan lebih banyak properti font seperti similarFontFamily untuk font teks, fontStyle untuk gaya seperti miring dan normal, fontWeight untuk tebal atau normal, color untuk warna teks, dan backgroundColor untuk warna kotak pembatas teks.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Ekstraksi properti kode batang

Kemampuan mengekstrak ocr.barcode semua kode batang yang diidentifikasi dalam barcodes koleksi sebagai objek tingkat atas di bawah content. contentDi dalam , kode batang yang terdeteksi direpresentasikan sebagai :barcode:. Setiap entri dalam koleksi ini mewakili kode batang dan menyertakan jenis kode batang sebagai kind dan konten kode batang yang disematkan bersama value dengan koordinatnya polygon . Awalnya, kode batang muncul di akhir setiap halaman. dikodekan confidence secara permanen untuk sebagai 1.

Jenis kode batang yang didukung

Jenis Kode Batang Contoh
QR Code Cuplikan layar Kode QR.
Code 39 Cuplikan layar Kode 39.
Code 93 Cuplikan layar Kode 93.
Code 128 Cuplikan layar Kode 128.
UPC (UPC-A & UPC-E) Cuplikan layar UPC.
PDF417 Cuplikan layar PDF417.
EAN-8 Cuplikan layar kode batang pasal-artikel Eropa ean-8.
EAN-13 Cuplikan layar ean-13 kode batang artikel-nomor Eropa.
Codabar Cuplikan layar Codabar.
Databar Cuplikan layar bilah Data.
Databar Diperluas Cuplikan layar bilah Data Diperluas.
ITF Cuplikan layar kode batang (ITF) interleaved-two-of-five.
Data Matrix Cuplikan layar Matriks Data.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Deteksi bahasa

languages Menambahkan fitur ke analyzeResult permintaan memprediksi bahasa utama yang terdeteksi untuk setiap baris teks bersama dengan confidence dalam koleksi di languages bawah analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pasangan kunci-nilai

Dalam versi API sebelumnya, model dokumen bawaan mengekstrak pasangan kunci-nilai dari formulir dan dokumen. Dengan penambahan keyValuePairs fitur ke tata letak bawaan, model tata letak sekarang menghasilkan hasil yang sama.

Pasangan kunci-nilai adalah rentang tertentu dalam dokumen yang mengidentifikasi label atau kunci dan respons atau nilai terkaitnya. Dalam bentuk terstruktur, pasangan ini dapat menjadi label dan nilai yang dimasukkan pengguna untuk bidang tersebut. Dalam dokumen tidak terstruktur, pasangan ini dapat menjadi tanggal kontrak dieksekusi berdasarkan teks dalam paragraf. Model AI dilatih untuk mengekstrak kunci dan nilai yang dapat diidentifikasi berdasarkan berbagai jenis, format, dan struktur dokumen.

Kunci juga dapat ada dalam isolasi ketika model mendeteksi bahwa ada kunci, tanpa nilai terkait atau saat memproses bidang opsional. Misalnya, bidang nama tengah dapat dibiarkan kosong pada formulir dalam beberapa instans. Pasangan kunci-nilai adalah rentang teks yang terkandung dalam dokumen. Untuk dokumen di mana nilai yang sama dijelaskan dengan cara yang berbeda, misalnya, pelanggan/pengguna, kunci terkait adalah pelanggan atau pengguna (berdasarkan konteks).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Bidang Kueri

Bidang kueri adalah kemampuan add-on untuk memperluas skema yang diekstrak dari model bawaan atau menentukan nama kunci tertentu saat nama kunci adalah variabel. Untuk menggunakan bidang kueri, atur fitur ke queryFields dan berikan daftar nama bidang yang dipisahkan koma di queryFields properti .

  • Kecerdasan Dokumen sekarang mendukung ekstraksi bidang kueri. Dengan ekstraksi bidang kueri, Anda bisa menambahkan bidang ke proses ekstraksi menggunakan permintaan kueri tanpa perlu menambahkan pelatihan.

  • Gunakan bidang kueri saat Anda perlu memperluas skema model bawaan atau kustom atau perlu mengekstrak beberapa bidang dengan output tata letak.

  • Bidang kueri adalah kemampuan add-on premium. Untuk hasil terbaik, tentukan bidang yang ingin Anda ekstrak menggunakan kasus unta atau nama bidang kasus Pascal untuk nama bidang multi-kata.

  • Bidang kueri mendukung maksimal 20 bidang per permintaan. Jika dokumen berisi nilai untuk bidang , bidang dan nilai dikembalikan.

  • Rilis ini memiliki implementasi baru dari kemampuan bidang kueri yang harganya lebih rendah dari implementasi sebelumnya dan harus divalidasi.

Catatan

Ekstraksi bidang kueri Document Intelligence Studio saat ini tersedia dengan API Model Tata Letak dan Bawaan dan rilis 2024-02-29-preview2023-10-31-preview yang lebih baru kecuali untuk US tax model (model W2, 1098s, dan 1099s).

Ekstraksi bidang kueri

Untuk ekstraksi bidang kueri, tentukan bidang yang ingin Anda ekstrak dan Kecerdasan Dokumen menganalisis dokumen yang sesuai. Berikut contohnya:

  • Jika Anda memproses kontrak di Studio Kecerdasan Dokumen, gunakan 2024-02-29-preview versi atau 2023-10-31-preview :

    Cuplikan layar tombol bidang kueri di Studio Kecerdasan Dokumen.

  • Anda dapat meneruskan daftar label bidang seperti Party1, , Party2, TermsOfUsePaymentTerms, PaymentDate, dan TermEndDate sebagai bagian analyze document dari permintaan.

    Cuplikan layar jendela pemilihan bidang kueri di Studio Kecerdasan Dokumen.

  • Kecerdasan Dokumen dapat menganalisis dan mengekstrak data bidang dan mengembalikan nilai dalam output JSON terstruktur.

  • Selain bidang kueri, respons menyertakan teks, tabel, tanda pilihan, dan data relevan lainnya.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Langkah berikutnya

Pelajari selengkapnya: Membaca model Tata Letak model

Sampel SDK: python