Bagikan melalui


Ekstraksi Bidang Dokumen - model AI generatif kustom

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview dan saat ini hanya tersedia di wilayah Azure berikut.
    • US Timur
    • US Tengah Utara

Model ekstraksi bidang dokumen (AI generatif kustom) menggunakan AI generatif untuk mengekstrak bidang yang ditentukan pengguna dari dokumen di berbagai templat visual. Model AI generatif kustom menggabungkan kekuatan pemahaman dokumen dengan Model Bahasa Besar (LLM) dan kekakuan dan skema dari kemampuan ekstraksi kustom untuk membuat model dengan akurasi tinggi dalam hitungan menit. Dengan jenis model generatif ini, Anda dapat memulai dengan satu dokumen dan melalui proses penambahan skema dan pembuatan model dengan pelabelan minimal. Model generatif kustom memungkinkan pengembang dan perusahaan untuk dengan mudah mengotomatiskan alur kerja ekstraksi data dengan akurasi dan kecepatan yang lebih besar untuk semua jenis dokumen. Model AI generatif kustom unggul dalam mengekstrak bidang sederhana dari dokumen tanpa sampel berlabel. Namun, menyediakan beberapa sampel berlabel meningkatkan akurasi ekstraksi untuk bidang kompleks dan bidang yang ditentukan pengguna seperti tabel. Anda dapat menggunakan REST API atau pustaka klien untuk mengirimkan dokumen untuk analisis dengan build model dan menggunakan proses generatif kustom.

Manfaat model AI generatif kustom

  • Pelabelan otomatis. Gunakan model bahasa besar (LLM) dan ekstrak bidang yang ditentukan pengguna untuk berbagai jenis dokumen dan templat visual.

  • Generalisasi yang Ditingkatkan. Ekstrak data dari data yang tidak terstruktur dan berbagai templat dokumen dengan akurasi yang lebih tinggi.

  • Hasil grounded. Melokalisasi data yang diekstrak dalam dokumen. Model generatif kustom membumikan hasil jika berlaku, memastikan respons dihasilkan dari konten dan mengaktifkan alur kerja peninjauan manusia.

  • Skor keyakinan. Gunakan skor keyakinan untuk setiap bidang yang diekstrak ke, filter data yang diekstrak berkualitas tinggi, maksimalkan langsung melalui pemrosesan dokumen dan minimalkan biaya tinjauan manusia.

Kasus penggunaan umum

  • Manajemen Siklus Hidup Kontrak. Bangun model generatif dan ekstrak bidang, klausul, dan kewajiban dari berbagai jenis kontrak.

  • Pinjaman & Aplikasi KPR. Otomatisasi proses pengajuan pinjaman dan KPR memungkinkan bank, pemberi pinjaman, dan entitas pemerintah untuk dengan cepat memproses pengajuan pinjaman dan KPR.

  • Layanan Keuangan. Dengan model AI generatif kustom, analisis dokumen kompleks seperti laporan keuangan dan laporan manajemen aset.

  • Manajemen pengeluaran. Tanda terima dan faktur dari berbagai peritel dan bisnis perlu diurai untuk memvalidasi pengeluaran. Model AI generatif kustom dapat mengekstrak pengeluaran di berbagai format dan dokumen dengan berbagai templat.

Mengelola himpunan data pelatihan

Dengan model kustom kami lainnya, Anda perlu mempertahankan himpunan data, menambahkan sampel baru, dan melatih model untuk peningkatan akurasi. Dengan model AI generatif kustom, dokumen berlabel diubah, dienkripsi, dan disimpan sebagai bagian dari model. Proses ini memastikan bahwa model dapat terus menggunakan sampel berlabel untuk meningkatkan kualitas ekstraksi. Seperti halnya model kustom lainnya, model disimpan di penyimpanan Microsoft, dan Anda dapat menghapusnya kapan saja.

Layanan Kecerdasan Dokumen memang mengelola himpunan data Anda, tetapi dokumen Anda disimpan dienkripsi dan hanya digunakan untuk meningkatkan hasil model untuk model spesifik Anda. Kunci yang di-manged layanan dapat digunakan untuk mengenkripsi data Anda atau dapat dienkripsi secara opsional dengan kunci yang dikelola pelanggan. Perubahan manajemen dan siklus hidup himpunan data hanya berlaku untuk model generatif kustom.

Kemampuan model

Model generatif kustom ekstraksi bidang saat ini mendukung tabel dinamis dengan 2024-07-31-preview dan bidang berikut:

Bidang formulir Tanda pilihan Bidang tabular Tanda Tangan Pelabelan wilayah Bidang yang tumpang tindih
Didukung Didukung Didukung Tidak didukung Tidak didukung Didukung

Mode build

Operasi ini build custom model mendukung templat kustom, model neural, dan generatif, lihatMode build model kustom. Berikut adalah perbedaan dalam jenis model:

  • Model AI generatif kustom dapat memproses dokumen kompleks dengan berbagai format, templat yang bervariasi, dan data yang tidak terstruktur.

  • Model neural kustom mendukung pemrosesan dokumen yang kompleks dan juga mendukung lebih banyak varians dalam halaman untuk dokumen terstruktur dan semi terstruktur.

  • Model templat kustom mengandalkan templat visual yang konsisten, seperti kuesioner atau aplikasi, untuk mengekstrak data berlabel.

Dukungan bahasa dan lokal

Versi model 2024-07-31-preview generatif kustom ekstraksi bidang mendukung lokal en-us . Untuk informasi selengkapnya tentang dukungan bahasa, lihat Dukungan bahasa - model kustom.

Dukungan wilayah

Versi model 2024-07-31-preview generatif kustom ekstraksi bidang hanya tersedia di 'US Timur' dan North Central US.  

Persyaratan input

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, , BMPPNG, TIFF, ,HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Read
    Tata letak ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Praktik terbaik

  • Data perwakilan. Gunakan dokumen perwakilan yang menargetkan distribusi data aktual, dan latih model generatif kustom berkualitas tinggi. Misalnya, jika dokumen target menyertakan bidang tabular yang diisi sebagian, tambahkan dokumen pelatihan yang terdiri dari tabel yang diisi sebagian. Atau jika bidang diberi nama tanggal, nilai untuk bidang ini harus berupa tanggal karena string acak dapat memengaruhi performa model.

  • Penamaan bidang. Pilih nama bidang yang tepat yang mewakili nilai bidang. Misalnya, untuk nilai bidang yang berisi Tanggal Transaksi, pertimbangkan untuk menamai bidang TransactionDate alih-alih Date1.

  • Deskripsi Bidang. Berikan informasi yang lebih kontekstual dalam deskripsi untuk membantu mengklarifikasi bidang yang perlu diekstrak. Contohnya termasuk lokasi dalam dokumen, label bidang potensial yang dapat dikaitkan dengannya, dan cara untuk membedakan dengan istilah lain yang bisa ambigu.

  • Variasi. Model generatif kustom dapat menggeneralisasi di berbagai templat dokumen dengan jenis dokumen yang sama. Sebagai praktik terbaik, buat satu model untuk semua variasi jenis dokumen. Untuk meningkatkan akurasi dan konsistensi model dalam pembuatan atau pemrosesan dokumen, sertakan templat visual untuk setiap jenis, terutama yang memerlukan elemen pemformatan dan/atau struktural tertentu.

Panduan layanan

  • Model pratinjau Generatif Kustom saat ini tidak mendukung ekstraksi tabel tetap dan tanda tangan.

  • Inferensi pada dokumen yang sama dapat menghasilkan hasil yang sedikit berbeda di seluruh panggilan dan merupakan batasan yang diketahui dari model saat ini GPT .

  • Skor keyakinan untuk setiap bidang mungkin bervariasi. Sebaiknya uji dengan data perwakilan Anda untuk menetapkan ambang keyakinan untuk skenario Anda.

  • Grounding, terutama untuk bidang tabular, menantang dan mungkin tidak sempurna dalam beberapa kasus.

  • Latensi untuk dokumen besar tinggi dan batasan yang diketahui dalam pratinjau.

  • Model yang disusun tidak mendukung ekstraksi generatif kustom.

Melatih model

Model generatif kustom tersedia dengan 2024-07-31-preview model versi dan yang lebih baru.

Model build operation untuk melatih mendukung buildMode properti, untuk melatih model generatif kustom, atur ke generativebuildMode .


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Langkah berikutnya