Bagikan melalui


Model pemrosesan dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
  • Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
    • US Timur
    • US Barat2
    • Eropa Barat
    • US Tengah Utara

Konten ini berlaku untuk: tanda centang v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.1 (GA) tanda centang biru v3.0 (GA)tanda centang biru v2.1 (GA)

Konten ini berlaku untuk: tanda centang v3.1 (GA) | Versi terbaru:tanda centang ungu v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.0tanda centang biru v2.1

Konten ini berlaku untuk: tanda centang v3.0 (GA) | Versi terbaru: tanda centang ungu v4.0 (pratinjau) tanda centang unguv3.1 | Versi sebelumnya: tanda centang biru v2.1

Konten ini berlaku untuk: tanda centang v2.1 | Versi terbaru: tanda centang biru v4.0 (pratinjau)

Azure AI Document Intelligence mendukung berbagai model yang memungkinkan Anda menambahkan pemrosesan dokumen cerdas ke aplikasi dan alur Anda. Anda dapat menggunakan model khusus domain bawaan atau melatih model kustom yang disesuaikan dengan kebutuhan bisnis dan kasus penggunaan spesifik Anda. Kecerdasan Dokumen dapat digunakan dengan pustaka klien REST API atau Python, C#, Java, dan JavaScript.

Catatan

  • Proyek pemrosesan dokumen yang melibatkan data keuangan, data kesehatan yang dilindungi, data pribadi, atau data yang sangat sensitif memerlukan perhatian yang cermat.
  • Pastikan untuk mematuhi semua persyaratan nasional/regional dan khusus industri.

Ringkasan model

Tabel berikut menunjukkan model yang tersedia untuk setiap pratinjau saat ini dan API stabil:

Jenis Model Model Pratinjau 2024-02-29
Pratinjau 10-10-2023
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Model analisis dokumen Baca ✔️ ✔️ ✔️ n/a
Model analisis dokumen Tata letak ✔️ ✔️ ✔️ ✔️
Model analisis dokumen Dokumen umum dipindahkan ke tata letak** ✔️ ✔️ n/a
Model bawaan Cek Bank ✔️ n/a n/a n/a
Model bawaan Laporan Bank ✔️ n/a n/a n/a
Model bawaan Paystub ✔️ n/a n/a n/a
Model bawaan Kontrak ✔️ ✔️ n/a n/a
Model bawaan Kartu asuransi kesehatan ✔️ ✔️ ✔️ n/a
Model bawaan Dokumen ID ✔️ ✔️ ✔️ ✔️
Model bawaan Faktur ✔️ ✔️ ✔️ ✔️
Model bawaan Kwitansi ✔️ ✔️ ✔️ ✔️
Model bawaan Pajak Terpadu AS* ✔️ n/a n/a n/a
Model bawaan Pajak AS 1040* ✔️ ✔️ n/a n/a
Model bawaan Pajak AS 1098* ✔️ n/a n/a n/a
Model bawaan Pajak AS 1099* ✔️ n/a n/a n/a
Model bawaan Pajak US W2 ✔️ ✔️ ✔️ n/a
Model bawaan US Mortgage 1003 URLA ✔️ n/a n/a n/a
Model bawaan Hipotret AS 1004 URAR ✔️ n/a n/a n/a
Model bawaan HIPOTP AS 1005 ✔️ n/a n/a n/a
Model bawaan Ringkasan Hipotek AS 1008 ✔️ n/a n/a n/a
Model bawaan Pengungkapan penutupan Hipotek AS ✔️ n/a n/a n/a
Model bawaan Surat nikah ✔️ n/a n/a n/a
Model bawaan Kartu kredit ✔️ n/a n/a n/a
Model bawaan Kartu nama tidak digunakan lagi ✔️ ✔️ ✔️
Model klasifikasi kustom Penggollong kustom ✔️ ✔️ n/a n/a
Model Generatif Kustom Model Generatif Kustom ✔️ n/a n/a n/a
Model ekstraksi kustom Neural kustom ✔️ ✔️ ✔️ n/a
Model customextraction Templat kustom ✔️ ✔️ ✔️ ✔️
Model ekstraksi kustom Kustom terdiri ✔️ ✔️ ✔️ ✔️
Semua model Kemampuan add-on ✔️ ✔️ n/a n/a

* - Berisi submodel. Lihat informasi spesifik model untuk variasi dan subjenis yang didukung.

Latensi

Latensi adalah jumlah waktu yang diperlukan server API untuk menangani dan memproses permintaan masuk dan mengirimkan respons keluar ke klien. Waktu untuk menganalisis dokumen tergantung pada ukuran (misalnya, jumlah halaman) dan konten terkait di setiap halaman. Kecerdasan Dokumen adalah layanan multipenyewa di mana latensi untuk dokumen serupa sebanding tetapi tidak selalu identik. Varianbilitas sesekali dalam latensi dan performa melekat dalam layanan mikro berbasis layanan mikro, tanpa status, asinkron yang memproses gambar dan dokumen besar dalam skala besar. Meskipun kami terus meningkatkan kemampuan perangkat keras dan kapasitas dan penskalaan, Anda mungkin masih memiliki masalah latensi saat runtime.

Kemampuan Add-on Add-On/Free Pratinjau 2024-02-29
&bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Ekstraksi properti font Add-On ✔️ ✔️ n/a n/a
Ekstraksi formula Add-On ✔️ ✔️ n/a n/a
Ekstraksi resolusi tinggi Add-On ✔️ ✔️ n/a n/a
Ekstraksi kode batang Gratis ✔️ ✔️ n/a n/a
Deteksi bahasa Gratis ✔️ ✔️ n/a n/a
Pasangan nilai kunci Gratis ✔️ n/a n/a n/a
Bidang kueri Add-On* ✔️ n/a n/a n/a
Pdf yang dapat dicari Add-On* ✔️ n/a n/a n/a

Fitur analisis model

ID Model Ekstraksi Konten Bidang kueri Paragraf Peran Paragraf Tanda Pilihan Tabel Pasangan Kunci-Nilai Bahasa Kode batang Analisis Dokumen Rumus* Font Gaya* Resolusi Tinggi* PDF yang dapat dicari
baca bawaan O O O O O
prebuilt-layout O O O O O
dokumen-bawaan O O O O O
prebuilt-businessCard
kontrak bawaan O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
Faktur Bawaan O O O O O O
tanda terima bawaan O O O O O
prebuilt-marriageCertificate.us O O O O O
kartu kredit bawaan O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(variasi) O O O O O
prebuilt-tax.us.1040(variasi) O O O O O
{ customModelName } O O O O O

✓ - Diaktifkan
O - Opsional
* - Fitur premium dikenakan biaya tambahan

Add-On* - Bidang kueri dihargai berbeda dari fitur add-on lainnya. Lihat harga untuk detailnya.

Koordinat kotak pembatas dan poligon

Kotak pembatas (polygon dalam v3.0 dan versi yang lebih baru) adalah persegi panjang abstrak yang mengelilingi elemen teks dalam dokumen yang digunakan sebagai titik referensi untuk deteksi objek.

  • Kotak pembatas menentukan posisi dengan menggunakan bidang koordinat x dan y yang disajikan dalam array empat pasangan numerik. Setiap pasangan mewakili sudut kotak dalam urutan berikut: kiri atas, kanan atas, kanan bawah, kiri bawah.

  • Koordinat gambar disajikan dalam piksel. Untuk PDF, koordinat disajikan dalam inci.

Untuk semua model, kecuali model kartu Nama, Kecerdasan Dokumen sekarang mendukung kemampuan add-on untuk memungkinkan analisis yang lebih canggih. Kemampuan opsional ini dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Ada tujuh kemampuan add-on yang tersedia untuk (GA) dan versi API yang 2023-07-31 lebih baru:

Dukungan bahasa

Model universal berbasis pembelajaran mendalam dalam Kecerdasan Dokumen mendukung banyak bahasa yang dapat mengekstrak teks multibahasa dari gambar dan dokumen Anda, termasuk baris teks dengan bahasa campuran. Dukungan bahasa bervariasi menurut fungsionalitas layanan Kecerdasan Dokumen. Untuk daftar lengkapnya, lihat artikel berikut ini:

Ketersediaan regional

Kecerdasan Dokumen umumnya tersedia di banyak dari 60+ wilayah infrastruktur global Azure.

Untuk informasi selengkapnya, lihat halaman geografi Azure kami untuk membantu memilih wilayah yang terbaik untuk Anda dan pelanggan Anda.

Detail model

Bagian ini menjelaskan output yang dapat Anda harapkan dari setiap model. Anda dapat memperluas output sebagian besar model dengan fitur add-on.

Baca OCR

API Baca menganalisis dan mengekstrak baris, kata, lokasinya, bahasa yang terdeteksi, dan gaya tulisan tangan jika terdeteksi.

Contoh dokumen yang diproses menggunakan Studio Kecerdasan Dokumen:

Cuplikan layar cuplikan layar dokumen sampel yang diproses menggunakan Document Intelligence Studio Read

Analisis tata letak

Model analisis Tata Letak menganalisis dan mengekstrak teks, tabel, tanda pilihan, dan elemen struktur lainnya seperti judul, judul bagian, header halaman, footer halaman, dan lainnya.

Contoh dokumen yang diproses menggunakan Studio Kecerdasan Dokumen:

Cuplikan layar halaman koran sampel yang diproses menggunakan Studio Kecerdasan Dokumen.

Kartu asuransi kesehatan

Model kartu asuransi kesehatan menggabungkan kemampuan Optical Character Recognition (OCR) yang kuat dengan model pembelajaran mendalam untuk menganalisis dan mengekstrak informasi utama dari kartu asuransi kesehatan AS.

Contoh kartu asuransi kesehatan AS yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar sampel analisis kartu asuransi kesehatan AS di Document Intelligence Studio.

Dokumen pajak AS

Model dokumen pajak AS menganalisis dan mengekstrak bidang kunci dan item baris dari sekelompok dokumen pajak tertentu. API mendukung analisis dokumen pajak AS berbahasa Inggris dari berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. Model berikut saat ini didukung:

Model Deskripsi ModelID
Pajak AS W-2 Ekstrak detail kompensasi kena pajak. prebuilt-tax.us.w2
Pajak AS 1040 Ekstrak detail bunga hipotek. prebuilt-tax.us.1040(variasi)
Pajak AS 1098 Ekstrak detail bunga hipotek. prebuilt-tax.us.1098(variasi)
Pajak AS 1099 Ekstrak pendapatan yang diterima dari sumber selain majikan. prebuilt-tax.us.1099(variasi)

Sampel dokumen W-2 yang diproses menggunakan Studio Kecerdasan Dokumen:

Cuplikan layar sampel W-2.

Dokumen hipote AS

Model dokumen hipotek AS menganalisis dan mengekstrak bidang kunci termasuk informasi peminjam, pinjaman, dan properti dari sekelompok dokumen hipotek tertentu. API mendukung analisis dokumen hipotek AS berbahasa Inggris dari berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. Model berikut saat ini didukung:

Model Deskripsi ModelID
Perjanjian Lisensi Pengguna Akhir 1003 (EULA) Ekstrak pinjaman, peminjam, detail properti. prebuilt-mortgage.us.1003
Dokumen Ringkasan 1008 Ekstrak peminjam, penjual, properti, hipotek, dan detail penjaminan. prebuilt-mortgage.us.1008
Pengungkapan penutup Ekstrak penutupan, biaya transaksi, dan detail pinjaman. prebuilt-mortgage.us.closingDisclosure
Surat nikah Ekstrak detail informasi pernikahan untuk pemohon pinjaman bersama. prebuilt-marriageCertificate
Pajak AS W-2 Ekstrak detail kompensasi kena pajak untuk verifikasi pendapatan. prebuilt-tax.us.w2

Dokumen pengungkapan Penutup sampel yang diproses menggunakan Studio Kecerdasan Dokumen:

Cuplikan layar sampel pengungkapan penutupan.

Contract

Model kontrak menganalisis dan mengekstrak bidang utama dan item baris dari perjanjian kontraktual termasuk pihak, yurisdiksi, ID kontrak, dan judul. Model saat ini mendukung dokumen kontrak berbahasa Inggris.

Contoh kontrak yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar ekstraksi model kontrak menggunakan Document Intelligence Studio.

Faktur

Model faktur mengotomatiskan pemrosesan faktur untuk mengekstrak nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah jatuh tempo, item baris, dan data kunci lainnya. Saat ini, model ini mendukung faktur Bahasa Inggris, Spanyol, Jerman, Prancis, Italia, Portugis, dan Belanda.

Contoh faktur yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar sampel faktur.

Tanda Terima

Gunakan model tanda terima untuk memindai tanda terima penjualan untuk nama pedagang, tanggal, item baris, jumlah, dan total dari tanda terima cetak dan tulisan tangan. Versi v3.0 juga mendukung pemrosesan tanda terima hotel satu halaman.

Sampel tanda terima yang diproses menggunakan Studio Kecerdasan Dokumen:

Cuplikan layar sampel tanda terima.

Dokumen identitas (ID)

Gunakan model Dokumen identitas (ID) untuk memproses SIM AS (semua 50 negara bagian dan Distrik Columbia) dan halaman biografis dari paspor internasional (tidak termasuk visa dan dokumen perjalanan lainnya) untuk mengekstrak bidang kunci.

Contoh SIM A.S. yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar sampel kartu identifikasi.

Surat nikah

Gunakan model sertifikat pernikahan untuk memproses sertifikat pernikahan AS untuk mengekstrak bidang kunci termasuk individu, tanggal, dan lokasi.

Contoh sertifikat pernikahan AS yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar sampel sertifikat pernikahan.

Kartu kredit

Gunakan model kartu kredit untuk memproses kartu kredit dan debit untuk mengekstrak bidang kunci.

Contoh kartu kredit yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar sampel kartu kredit.

Model kustom

Model kustom dapat diklasifikasikan secara luas ke dalam dua jenis. Model klasifikasi kustom yang mendukung klasifikasi "jenis dokumen" dan model ekstraksi kustom yang dapat mengekstrak skema yang ditentukan dari jenis dokumen tertentu.

Diagram jenis model kustom dan mode build model terkait.

Model dokumen kustom menganalisis dan mengekstrak data dari formulir dan dokumen khusus untuk bisnis Anda. Mereka mengenali bidang formulir dalam konten Anda yang berbeda dan mengekstrak pasangan kunci-nilai dan data tabel. Anda hanya memerlukan satu contoh jenis formulir untuk memulai.

Model kustom versi v3.0 dan yang lebih baru mendukung deteksi tanda tangan dalam templat kustom (formulir) dan tabel lintas halaman dalam model templat dan neural. Deteksi tanda tangan mencari keberadaan tanda tangan, bukan identitas orang yang menandatangani dokumen. Jika model mengembalikan unsigned untuk deteksi tanda tangan, model tidak menemukan tanda tangan di bidang yang ditentukan.

Contoh templat kustom yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar jendela analyze-a-custom-form alat Kecerdasan Dokumen.

Ekstraksi kustom

Model ekstraksi kustom dapat berupa salah satu dari dua jenis, templat kustom atau neural kustom. Untuk membuat model ekstraksi kustom, beri label himpunan data dokumen dengan nilai yang ingin Anda ekstrak dan latih model pada himpunan data berlabel. Anda hanya memerlukan lima contoh jenis formulir yang sama untuk memulai.

Sampel ekstraksi kustom yang diproses menggunakan Document Intelligence Studio:

Cuplikan layar analisis model ekstraksi kustom di Document Intelligence Studio.

Penggollong kustom

Model klasifikasi kustom memungkinkan Anda mengidentifikasi jenis dokumen sebelum memanggil model ekstraksi. Model klasifikasi tersedia dimulai dengan 2023-07-31 (GA) API. Melatih model klasifikasi kustom memerlukan setidaknya dua kelas yang berbeda dan minimal lima sampel per kelas.

Model yang disusun

Model yang disusun dibuat dengan mengambil koleksi model khusus dan menetapkannya ke satu model yang mencakup jenis formulir Anda. Anda dapat menetapkan beberapa model kustom ke model yang terdiri yang disebut dengan SATU ID model. Anda dapat menetapkan hingga 200 model kustom terlatih ke satu model yang disusupi.

Jendela dialog model yang disusam di Studio Kecerdasan Dokumen:

Cuplikan layar jendela dialog Document Intelligence Studio menyusun model kustom.

Persyaratan input

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, , BMPPNG, TIFF, ,HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Read
    Tata letak ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Catatan

Alat pelabelan sampel tidak mendukung format file BMP. Ini adalah batasan alat bukan Document Intelligence Service.

Migrasi versi

Pelajari cara menggunakan Kecerdasan Dokumen v3.0 di aplikasi Anda dengan mengikuti panduan migrasi Kecerdasan Dokumen v3.1 kami

Model Keterangan
Analisis dokumen
Tata letak Mengekstrak informasi teks dan tata letak dari dokumen.
Bawaan
Faktur Mengekstrak informasi penting dari faktur berbahasa Inggris.
Kwitansi Mengekstrak informasi penting dari faktur berbahasa Inggris.
Dokumen ID Mengekstrak informasi penting dari SIM AS dan paspor internasional.
Kartu nama Mengekstrak informasi penting dari kartu nama berbahasa Inggris.
Adat
Adat Mengekstrak data dari formulir dan dokumen khusus untuk bisnis Anda. Model kustom dilatih untuk data dan kasus penggunaan Anda yang berbeda.
Terdiri Buat koleksi model kustom dan tetapkan ke satu model yang dibangun dari jenis formulir Anda.

Tata letak

API Tata Letak menganalisis dan mengekstrak teks, tabel dan header, tanda seleksi, dan informasi struktur dari dokumen.

Contoh dokumen yang diproses menggunakan alat Pelabelan Sampel:

Cuplikan layar analisis 'tata letak' menggunakan alat Pelabelan Sampel.

Faktur

Model faktur menganalisis dan mengekstrak informasi penjualan dari faktur penjualan. API menganalisis faktur dalam berbagai format dan mengekstrak informasi kunci seperti nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah yang jatuh tempo.

Contoh faktur yang diproses menggunakan alat Pelabelan Sampel:

Cuplikan layar analisis faktur sampel menggunakan alat Pelabelan Sampel.

Tanda Terima

  • Model tanda terima menganalisis dan mengekstrak dari tanda terima yang dicetak dan ditulis tangan.

Sampel tanda terima diproses menggunakan alat Pelabelan Sampel:

Cuplikan layar sampel tanda terima.

Dokumen ID

Model dokumen ID menganalisis dan mengekstrak informasi penting dari dokumen-dokumen berikut:

  • SIM A.S. (semua 50 negara bagian dan Distrik Kolombia)

  • Halaman biografi dari paspor internasional (tidak termasuk visa dan dokumen perjalanan lainnya). API menganalisis dokumen identitas dan ekstrak

Contoh SIM AS yang diproses menggunakan alat Pelabelan Sampel:

Cuplikan layar sampel kartu identifikasi.

Kartu nama

Model kartu nama menganalisis dan mengekstrak informasi penting dari gambar kartu nama.

Contoh kartu nama yang diproses menggunakan alat Pelabelan Sampel:

Cuplikan layar sampel kartu bisnis.

Adat

  • Model kustom menganalisis dan mengekstrak data dari formulir dan dokumen yang spesifik untuk bisnis Anda. API adalah program pembelajaran mesin yang dilatih untuk mengenali bidang isian borang di dalam konten tertentu serta mengekstrak pasangan kunci-nilai dan data tabel. Anda hanya perlu lima contoh dari jenis formulir yang sama untuk memulai dan model kustom Anda dapat dilatih dengan atau tanpa dataset berlabel.

Contoh pemrosesan model kustom menggunakan alat Pelabelan Sampel:

Cuplikan layar jendela analyze-a-custom-form alat Kecerdasan Dokumen.

Model kustom yang disusun

Model yang disusun dibuat dengan mengambil koleksi model khusus dan menetapkannya ke satu model yang mencakup jenis formulir Anda. Anda dapat menetapkan beberapa model kustom ke model yang terdiri yang disebut dengan SATU ID model. Anda dapat menetapkan hingga 100 model kustom terlatih ke satu model yang disusun.

Jendela dialog model yang disusam menggunakan alat Pelabelan Sampel:

Cuplikan layar jendela dialog Document Intelligence Studio menyusun model kustom.

Ekstraksi data model

Model Ekstraksi teks Deteksi bahasa Tanda Pilihan Tabel Paragraf Peran paragraf Pasangan Kunci-Nilai Bidang
Tata letak
Faktur
Kwitansi
ID Dokumen
Kartu Nama
Formulir Kustom

Persyaratan input

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, , BMPPNG, TIFF, ,HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Read
    Tata letak ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Catatan

Alat pelabelan sampel tidak mendukung format file BMP. Ini adalah batasan alat bukan Document Intelligence Service.

Migrasi versi

Anda dapat mempelajari cara menggunakan Kecerdasan Dokumen v3.0 di aplikasi Anda dengan mengikuti panduan migrasi Kecerdasan Dokumen v3.1 kami

Langkah berikutnya

  • Coba pemrosesan formulir dan dokumen Anda sendiri dengan Studio Kecerdasan Dokumen.

  • Selesaikan mulai cepat Kecerdasan Dokumen dan mulai membuat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.

  • Coba pemrosesan formulir dan dokumen Anda sendiri dengan alat Pelabelan Sampel Kecerdasan Dokumen.

  • Selesaikan mulai cepat Kecerdasan Dokumen dan mulai membuat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.