Bagikan melalui


Model templat kustom Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
  • Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
  • Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
  • US Timur
  • US Barat2
  • Eropa Barat

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)tanda centang biruv3.0 (GA)tanda centang biruv2.1 (GA)

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.0tanda centang biruv2.1

Konten ini berlaku untuk:tanda centangv3.0 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau)tanda centang unguv3.1 | Versi sebelumnya:tanda centang biruv2.1

Konten ini berlaku untuk:tanda centangv2.1 | Versi terbaru:tanda centang biruv4.0 (pratinjau)

Templat kustom (sebelumnya formulir kustom) adalah model dokumen yang mudah dilatih yang secara akurat mengekstrak pasangan kunci-nilai berlabel, tanda pilihan, tabel, wilayah, dan tanda tangan dari dokumen. Model template menggunakan isyarat tata letak untuk mengekstrak nilai dari dokumen dan cocok untuk mengekstrak bidang dari dokumen yang sangat terstruktur dengan template visual yang ditentukan.

Model template kustom memiliki format dan strategi pelabelan yang sama dengan model neural khusus, dengan dukungan untuk lebih banyak jenis bidang dan bahasa.

Kemampuan model

Model templat kustom mendukung pasangan kunci nilai, tanda pilihan, tabel, bidang tanda tangan, dan wilayah.

Bidang formulir Tanda pilihan Bidang bertabel (Tabel) Tanda Tangan Wilayah yang dipilih
Didukung Didukung Didukung Didukung Didukung

Bidang tabular

Dengan dirilisnya versi API 2022-06-30-preview, model template kustom akan menambahkan dukungan untuk bidang tabular lintas halaman (tabel):

  • Untuk melabeli tabel yang mencakup beberapa halaman, beri label pada setiap baris tabel di seluruh halaman yang berbeda dalam satu tabel.
  • Sebagai praktik terbaik, pastikan himpunan data Anda berisi beberapa sampel variasi yang diharapkan. Misalnya, sertakan sampel yang seluruh tabelnya berada di satu halaman dan yang tabelnya menjangkau dua halaman atau lebih jika Anda ingin melihat variasi tersebut dalam dokumen.

Bidang tabular juga berguna saat mengekstrak informasi berulang dalam dokumen yang tidak dikenali sebagai tabel. Misalnya, bagian berulang dari pengalaman kerja dalam resume dapat diberi label dan diekstraksi sebagai bidang bertabel.

Berurusan dengan variasi

Model templat mengandalkan templat visual yang ditentukan, perubahan pada templat menghasilkan akurasi yang lebih rendah. Dalam instans tersebut, pisahkan himpunan data pelatihan Anda untuk menyertakan setidaknya lima sampel dari setiap templat dan latih model untuk masing-masing variasi. Anda kemudian dapat menyusun model menjadi satu titik akhir. Untuk variasi halus, seperti dokumen dan gambar PDF digital, sebaiknya sertakan setidaknya lima contoh dari setiap jenis dalam himpunan data pelatihan yang sama.

Persyaratan input

  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTML
    Read
    Tata letak ✔ (2024-02-29-preview, 2023-10-31-preview atau yang lebih baru)
    Dokumen Umum
    Bawaan
    Kustom

    ✱ File Microsoft Office saat ini tidak didukung untuk model atau versi lain.

  • Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar 8-point pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

  • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.

  • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1GB dengan maksimum 10.000 halaman.

Melatih model

Model templat kustom umumnya tersedia dengan API v4.0. Jika Anda memulai dengan proyek baru atau memiliki himpunan data berlabel yang sudah ada, gunakan API v3.1 atau v3.0 dengan Document Intelligence Studio untuk melatih model templat kustom.

Model REST API SDK Model Label dan Uji
Templat kustom API v3.1 SDK Kecerdasan Dokumen Studio Kecerdasan Dokumen

Dengan API v3.0 dan yang lebih baru, operasi build untuk melatih model mendukung properti baru buildMode , untuk melatih model templat kustom, atur ke buildModetemplate.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Model templat kustom umumnya tersedia dengan API v3.1. Jika Anda memulai dengan proyek baru atau memiliki himpunan data berlabel yang sudah ada, gunakan API v3.1 atau v3.0 dengan Document Intelligence Studio untuk melatih model templat kustom.

Model REST API SDK Model Label dan Uji
Templat kustom API v3.1 SDK Kecerdasan Dokumen Studio Kecerdasan Dokumen

Dengan API v3.0 dan yang lebih baru, operasi build untuk melatih model mendukung properti baru buildMode , untuk melatih model templat kustom, atur ke buildModetemplate.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa—model kustom untuk daftar lengkap bahasa yang didukung.

Model kustom (templat) umumnya tersedia dengan API v2.1.

Model REST API SDK Model Label dan Uji
Model kustom (templat) Kecerdasan Dokumen 2.1 SDK Kecerdasan Dokumen Alat pelabelan Sampel Kecerdasan Dokumen

Langkah berikutnya

Pelajari cara membuat dan menyusun model kustom: