Model pemrosesan dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
- Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
- Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
- US Timur
- US Barat2
- Eropa Barat
Konten ini berlaku untuk:v4.0 (pratinjau) | Versi sebelumnya:v3.1 (GA)v3.0 (GA)v2.1 (GA)
Konten ini berlaku untuk:v3.1 (GA) | Versi terbaru:v4.0 (pratinjau) | Versi sebelumnya:v3.0v2.1
Konten ini berlaku untuk:v3.0 (GA) | Versi terbaru:v4.0 (pratinjau)v3.1 | Versi sebelumnya:v2.1
Konten ini berlaku untuk:v2.1 | Versi terbaru:v4.0 (pratinjau)
Azure AI Document Intelligence mendukung berbagai model yang memungkinkan Anda menambahkan pemrosesan dokumen cerdas ke aplikasi dan alur Anda. Anda dapat menggunakan model khusus domain bawaan atau melatih model kustom yang disesuaikan dengan kebutuhan bisnis dan kasus penggunaan spesifik Anda. Kecerdasan Dokumen dapat digunakan dengan pustaka klien REST API atau Python, C#, Java, dan JavaScript.
Ringkasan model
Tabel berikut menunjukkan model yang tersedia untuk setiap pratinjau saat ini dan API stabil:
Jenis Model | Model | • Pratinjau 2024-02-29 • Pratinjau 10-10-2023 |
2023-07-31 (GA) | 2022-08-31 (GA) | v2.1 (GA) |
---|---|---|---|---|---|
Model analisis dokumen | Baca | ✔️ | ✔️ | ✔️ | n/a |
Model analisis dokumen | Tata letak | ✔️ | ✔️ | ✔️ | ✔️ |
Model analisis dokumen | Dokumen umum | dipindahkan ke tata letak** | ✔️ | ✔️ | n/a |
Model bawaan | Kontrak | ✔️ | ✔️ | n/a | n/a |
Model bawaan | Kartu asuransi kesehatan | ✔️ | ✔️ | ✔️ | n/a |
Model bawaan | Dokumen ID | ✔️ | ✔️ | ✔️ | ✔️ |
Model bawaan | Faktur | ✔️ | ✔️ | ✔️ | ✔️ |
Model bawaan | Tanda terima | ✔️ | ✔️ | ✔️ | ✔️ |
Model bawaan | Pajak AS 1040* | ✔️ | ✔️ | n/a | n/a |
Model bawaan | Pajak AS 1098* | ✔️ | n/a | n/a | n/a |
Model bawaan | Pajak AS 1099* | ✔️ | n/a | n/a | n/a |
Model bawaan | Pajak US W2 | ✔️ | ✔️ | ✔️ | n/a |
Model bawaan | US Mortgage 1003 URLA | ✔️ | n/a | n/a | n/a |
Model bawaan | Ringkasan Hipotek AS 1008 | ✔️ | n/a | n/a | n/a |
Model bawaan | Pengungkapan penutupan Hipotek AS | ✔️ | n/a | n/a | n/a |
Model bawaan | Surat nikah | ✔️ | n/a | n/a | n/a |
Model bawaan | Kartu kredit | ✔️ | n/a | n/a | n/a |
Model bawaan | Kartu nama | tidak digunakan lagi | ✔️ | ✔️ | ✔️ |
Model klasifikasi kustom | Penggollong kustom | ✔️ | ✔️ | n/a | n/a |
Model ekstraksi kustom | Neural kustom | ✔️ | ✔️ | ✔️ | n/a |
Model customextraction | Templat kustom | ✔️ | ✔️ | ✔️ | ✔️ |
Model ekstraksi kustom | Kustom terdiri | ✔️ | ✔️ | ✔️ | ✔️ |
Semua model | Kemampuan add-on | ✔️ | ✔️ | n/a | n/a |
* - Berisi sub-model. Lihat informasi spesifik model untuk variasi dan subjenis yang didukung.
Kemampuan Add-on | Add-On/Free | • Pratinjau 2024-02-29 &bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true |
2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Ekstraksi properti font | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi rumus | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi resolusi tinggi | Add-on | ✔️ | ✔️ | n/a | n/a |
Ekstraksi kode batang | Gratis | ✔️ | ✔️ | n/a | n/a |
Deteksi bahasa | Gratis | ✔️ | ✔️ | n/a | n/a |
Pasangan kunci-nilai | Gratis | ✔️ | n/a | n/a | n/a |
Bidang kueri | Add-on* | ✔️ | n/a | n/a | n/a |
Fitur analisis model
ID Model | Ekstraksi Konten | Bidang kueri | Paragraf | Peran Paragraf | Tanda Pilihan | Tabel | Pasangan Kunci-Nilai | Bahasa | Barcode | Analisis Dokumen | Rumus* | Font Gaya* | Resolusi Tinggi* |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
baca bawaan | ✓ | O | O | O | O | O | |||||||
prebuilt-layout | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | ||
dokumen-bawaan | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | |
prebuilt-businessCard | ✓ | ✓ | ✓ | ||||||||||
kontrak bawaan | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||
prebuilt-healthInsuranceCard.us | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-idDocument | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
Faktur Bawaan | ✓ | ✓ | ✓ | ✓ | O | O | O | ✓ | O | O | O | ||
tanda terima bawaan | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-marriageCertificate.us | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
kartu kredit bawaan | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1003 | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1008 | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.closingDisclosure | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w2 | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | ||||
prebuilt-tax.us.1098 | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | ||||
prebuilt-tax.us.1098E | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | ||||
prebuilt-tax.us.1098T | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | ||||
prebuilt-tax.us.1099(variasi) | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | ||||
prebuilt-tax.us.1040(variasi) | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
{ customModelName } | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O |
✓ - Diaktifkan
O - Opsional
* - Fitur premium dikenakan biaya tambahan
Add-On* - Bidang kueri dihargai berbeda dari fitur add-on lainnya. Lihat harga untuk detailnya.
Model | Keterangan |
---|---|
Model analisis dokumen | |
Baca OCR | Ekstrak teks cetak dan tulisan tangan termasuk kata, lokasi, dan bahasa yang terdeteksi. |
Analisis tata letak | Ekstrak elemen tata letak teks dan dokumen seperti tabel, tanda pilihan, judul, judul bagian, dan lainnya. |
Model bawaan | |
Kartu asuransi kesehatan | Mengotomatiskan proses layanan kesehatan dengan mengekstrak asuransi, anggota, resep, nomor grup, dan informasi utama lainnya dari kartu asuransi kesehatan AS. |
Model dokumen Pajak AS | Memproses formulir pajak AS untuk mengekstrak karyawan, majikan, upah, dan informasi lainnya. |
Model dokumen Mortgage AS | Proses formulir hipotek AS untuk mengekstrak pinjaman peminjam dan informasi properti. |
Kontrak | Ekstrak perjanjian dan detail pihak. |
Faktur | Mengotomatiskan faktur. |
Tanda terima | Ekstrak data tanda terima dari tanda terima. |
Dokumen identitas (ID) | Ekstrak bidang identitas (ID) dari SIM AS dan paspor internasional. |
Kartu nama | Pindai kartu nama untuk mengekstrak bidang kunci dan data ke dalam aplikasi Anda. |
Model kustom | |
Model kustom (gambaran umum) | Mengekstrak data dari formulir dan dokumen khusus untuk bisnis Anda. Model kustom dilatih untuk data dan kasus penggunaan Anda yang berbeda. |
Model ekstraksi kustom | ● Model templat kustom menggunakan isti tata letak untuk mengekstrak nilai dari dokumen dan cocok untuk mengekstrak bidang dari dokumen yang sangat terstruktur dengan templat visual yang ditentukan. ● Model neural kustom dilatih pada berbagai jenis dokumen untuk mengekstrak bidang dari dokumen terstruktur, semi terstruktur, dan tidak terstruktur. |
Model klasifikasi kustom | Model klasifikasi kustom dapat mengklasifikasikan setiap halaman dalam file input untuk mengidentifikasi dokumen di dalamnya dan juga dapat mengidentifikasi beberapa dokumen atau beberapa instans dari satu dokumen dalam file input. |
Model yang terdiri | Gabungkan beberapa model kustom ke dalam satu model untuk mengotomatiskan pemrosesan berbagai jenis dokumen dengan satu model yang disusam. |
Untuk semua model, kecuali model kartu Nama, Kecerdasan Dokumen sekarang mendukung kemampuan add-on untuk memungkinkan analisis yang lebih canggih. Kemampuan opsional ini dapat diaktifkan dan dinonaktifkan tergantung pada skenario ekstraksi dokumen. Ada tujuh kemampuan add-on yang tersedia untuk (GA) dan versi API yang 2023-07-31
lebih baru:
ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs
(2024-02-29-preview, 2023-10-31-preview)queryFields
(2024-02-29-preview, 2023-10-31-preview)Not available with the US.Tax models
Detail model
Bagian ini menjelaskan output yang dapat Anda harapkan dari setiap model. Harap dicatat bahwa Anda dapat memperluas output sebagian besar model dengan fitur add-on.
Baca OCR
API Baca menganalisis dan mengekstrak baris, kata, lokasinya, bahasa yang terdeteksi, dan gaya tulisan tangan jika terdeteksi.
Contoh dokumen yang diproses menggunakan Studio Kecerdasan Dokumen:
Analisis tata letak
Model analisis Tata Letak menganalisis dan mengekstrak teks, tabel, tanda pilihan, dan elemen struktur lainnya seperti judul, judul bagian, header halaman, footer halaman, dan lainnya.
Contoh dokumen yang diproses menggunakan Studio Kecerdasan Dokumen:
Kartu asuransi kesehatan
Model kartu asuransi kesehatan menggabungkan kemampuan Optical Character Recognition (OCR) yang kuat dengan model pembelajaran mendalam untuk menganalisis dan mengekstrak informasi utama dari kartu asuransi kesehatan AS.
Contoh kartu asuransi kesehatan AS yang diproses menggunakan Document Intelligence Studio:
Dokumen pajak AS
Model dokumen pajak AS menganalisis dan mengekstrak bidang kunci dan item baris dari sekelompok dokumen pajak tertentu. API mendukung analisis dokumen pajak AS berbahasa Inggris dari berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. Model berikut saat ini didukung:
Model | Deskripsi | ModelID |
---|---|---|
Pajak AS W-2 | Ekstrak detail kompensasi kena pajak. | prebuilt-tax.us.W-2 |
Pajak AS 1040 | Ekstrak detail bunga hipotek. | prebuilt-tax.us.1040(variasi) |
Pajak AS 1098 | Ekstrak detail bunga hipotek. | prebuilt-tax.us.1098(variasi) |
Pajak AS 1099 | Ekstrak pendapatan yang diterima dari sumber selain majikan. | prebuilt-tax.us.1099(variasi) |
Sampel dokumen W-2 yang diproses menggunakan Studio Kecerdasan Dokumen:
Dokumen hipote AS
Model dokumen hipotek AS menganalisis dan mengekstrak bidang kunci termasuk informasi peminjam, pinjaman, dan properti dari sekelompok dokumen hipotek tertentu. API mendukung analisis dokumen hipotek AS berbahasa Inggris dari berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. Model berikut saat ini didukung:
Model | Deskripsi | ModelID |
---|---|---|
Perjanjian Lisensi Pengguna Akhir 1003 (EULA) | Ekstrak pinjaman, peminjam, detail properti. | prebuilt-mortgage.us.1003 |
Dokumen Ringkasan 1008 | Ekstrak peminjam, penjual, properti, hipotek dan detail underwriting. | prebuilt-mortgage.us.1008 |
Pengungkapan penutup | Ekstrak penutupan, biaya transaksi, dan detail pinjaman. | prebuilt-mortgage.us.closingDisclosure |
Surat nikah | Ekstrak detail informasi pernikahan untuk pemohon pinjaman bersama. | prebuilt-marriageCertificate |
Pajak AS W-2 | Ekstrak detail kompensasi kena pajak untuk verifikasi pendapatan. | prebuilt-tax.us.W-2 |
Dokumen pengungkapan Penutup sampel yang diproses menggunakan Studio Kecerdasan Dokumen:
Contract
Model kontrak menganalisis dan mengekstrak bidang utama dan item baris dari perjanjian kontraktual termasuk pihak, yurisdiksi, ID kontrak, dan judul. Model saat ini mendukung dokumen kontrak berbahasa Inggris.
Contoh kontrak yang diproses menggunakan Document Intelligence Studio:
Faktur
Model faktur mengotomatiskan pemrosesan faktur untuk mengekstrak nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah jatuh tempo, item baris, dan data kunci lainnya. Saat ini, model ini mendukung faktur Bahasa Inggris, Spanyol, Jerman, Prancis, Italia, Portugis, dan Belanda.
Contoh faktur yang diproses menggunakan Document Intelligence Studio:
Tanda Terima
Gunakan model tanda terima untuk memindai tanda terima penjualan untuk nama pedagang, tanggal, item baris, jumlah, dan total dari tanda terima cetak dan tulisan tangan. Versi v3.0 juga mendukung pemrosesan tanda terima hotel satu halaman.
Sampel tanda terima yang diproses menggunakan Studio Kecerdasan Dokumen:
Dokumen identitas (ID)
Gunakan model Dokumen identitas (ID) untuk memproses SIM AS (semua 50 negara bagian dan Distrik Columbia) dan halaman biografis dari paspor internasional (tidak termasuk visa dan dokumen perjalanan lainnya) untuk mengekstrak bidang kunci.
Contoh SIM A.S. yang diproses menggunakan Document Intelligence Studio:
Surat nikah
Gunakan model sertifikat nikah untuk memproses sertifikat pernikahan AS untuk mengekstrak bidang kunci termasuk individu, tanggal, dan lokasi.
Contoh sertifikat pernikahan AS yang diproses menggunakan Document Intelligence Studio:
Kartu kredit
Gunakan model kartu kredit untuk memproses kartu kredit dan debit untuk mengekstrak bidang kunci.
Contoh kartu kredit yang diproses menggunakan Document Intelligence Studio:
Model kustom
Model kustom dapat diklasifikasikan secara luas ke dalam dua jenis. Model klasifikasi kustom yang mendukung klasifikasi "jenis dokumen" dan model ekstraksi kustom yang dapat mengekstrak skema yang ditentukan dari jenis dokumen tertentu.
Model dokumen kustom menganalisis dan mengekstrak data dari formulir dan dokumen khusus untuk bisnis Anda. Bidang tersebut dilatih untuk mengenali bidang formulir dalam konten Anda yang berbeda dan mengekstrak pasangan kunci-nilai dan data tabel. Anda hanya memerlukan satu contoh jenis formulir untuk memulai.
Model kustom versi v3.0 mendukung deteksi tanda tangan dalam templat kustom (formulir) dan tabel lintas halaman dalam model templat dan neural.
Contoh templat kustom yang diproses menggunakan Document Intelligence Studio:
Ekstraksi kustom
Model ekstraksi kustom dapat berupa salah satu dari dua jenis, templat kustom atau neural kustom. Untuk membuat model ekstraksi kustom, beri label himpunan data dokumen dengan nilai yang ingin Anda ekstrak dan latih model pada himpunan data berlabel. Anda hanya memerlukan lima contoh jenis formulir yang sama untuk memulai.
Sampel ekstraksi kustom yang diproses menggunakan Document Intelligence Studio:
Penggollong kustom
Model klasifikasi kustom memungkinkan Anda mengidentifikasi jenis dokumen sebelum memanggil model ekstraksi. Model klasifikasi tersedia dimulai dengan 2023-07-31 (GA)
API. Melatih model klasifikasi kustom memerlukan setidaknya dua kelas yang berbeda dan minimal lima sampel per kelas.
Model yang disusun
Model yang disusun dibuat dengan mengambil koleksi model khusus dan menetapkannya ke satu model yang mencakup jenis formulir Anda. Anda dapat menetapkan beberapa model kustom ke model yang terdiri yang disebut dengan SATU ID model. Anda dapat menetapkan hingga 200 model kustom terlatih ke satu model yang disusupi.
Jendela dialog model yang disusam di Studio Kecerdasan Dokumen:
Persyaratan input
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Format file yang didukung:
Model PDF Gambar:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (Pratinjau 2024-02-29) Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar
8
-point pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.
Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1GB
dengan maksimum 10.000 halaman.
Catatan
Alat pelabelan sampel tidak mendukung format file BMP. Ini adalah batasan alat bukan Document Intelligence Service.
Migrasi versi
Pelajari cara menggunakan Kecerdasan Dokumen v3.0 di aplikasi Anda dengan mengikuti panduan migrasi Kecerdasan Dokumen v3.1 kami
Model | Keterangan |
---|---|
Analisis dokumen | |
Tata letak | Mengekstrak informasi teks dan tata letak dari dokumen. |
Prebuilt | |
Faktur | Mengekstrak informasi penting dari faktur berbahasa Inggris. |
Tanda terima | Mengekstrak informasi penting dari faktur berbahasa Inggris. |
Dokumen ID | Mengekstrak informasi penting dari SIM AS dan paspor internasional. |
Kartu nama | Mengekstrak informasi penting dari kartu nama berbahasa Inggris. |
Adat | |
Adat | Mengekstrak data dari formulir dan dokumen khusus untuk bisnis Anda. Model kustom dilatih untuk data dan kasus penggunaan Anda yang berbeda. |
Terdiri | Buat koleksi model kustom dan tetapkan ke satu model yang dibangun dari jenis formulir Anda. |
Tata letak
API Tata Letak menganalisis dan mengekstrak teks, tabel dan header, tanda seleksi, dan informasi struktur dari dokumen.
Contoh dokumen yang diproses menggunakan alat Pelabelan Sampel:
Faktur
Model faktur menganalisis dan mengekstrak informasi penjualan dari faktur penjualan. API menganalisis faktur dalam berbagai format dan mengekstrak informasi kunci seperti nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah yang jatuh tempo.
Contoh faktur yang diproses menggunakan alat Pelabelan Sampel:
Tanda Terima
- Model tanda terima menganalisis dan mengekstrak dari tanda terima yang dicetak dan ditulis tangan.
Sampel tanda terima diproses menggunakan alat Pelabelan Sampel:
Dokumen ID
Model dokumen ID menganalisis dan mengekstrak informasi penting dari dokumen-dokumen berikut:
SIM A.S. (semua 50 negara bagian dan Distrik Kolombia)
Halaman biografi dari paspor internasional (tidak termasuk visa dan dokumen perjalanan lainnya). API menganalisis dokumen identitas dan ekstrak
Contoh SIM AS yang diproses menggunakan alat Pelabelan Sampel:
Kartu nama
Model kartu nama menganalisis dan mengekstrak informasi penting dari gambar kartu nama.
Contoh kartu nama yang diproses menggunakan alat Pelabelan Sampel:
Kustom
- Model kustom menganalisis dan mengekstrak data dari formulir dan dokumen yang spesifik untuk bisnis Anda. API adalah program pembelajaran mesin yang dilatih untuk mengenali bidang isian borang di dalam konten tertentu serta mengekstrak pasangan kunci-nilai dan data tabel. Anda hanya perlu lima contoh dari jenis formulir yang sama untuk memulai dan model kustom Anda dapat dilatih dengan atau tanpa dataset berlabel.
Contoh pemrosesan model kustom menggunakan alat Pelabelan Sampel:
Model kustom yang disusun
Model yang disusun dibuat dengan mengambil koleksi model khusus dan menetapkannya ke satu model yang mencakup jenis formulir Anda. Anda dapat menetapkan beberapa model kustom ke model yang terdiri yang disebut dengan SATU ID model. Anda dapat menetapkan hingga 100 model kustom terlatih ke satu model yang disusun.
Jendela dialog model yang disusam menggunakan alat Pelabelan Sampel:
Ekstraksi data model
Model | Ekstraksi teks | Deteksi bahasa | Tanda Pilihan | Tabel | Paragraf | Peran paragraf | Pasangan Kunci-Nilai | Bidang |
---|---|---|---|---|---|---|---|---|
Tata letak | ✓ | ✓ | ✓ | ✓ | ✓ | |||
Faktur | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
Tanda terima | ✓ | ✓ | ✓ | |||||
ID Dokumen | ✓ | ✓ | ✓ | |||||
Kartu Nama | ✓ | ✓ | ✓ | |||||
Formulir Kustom | ✓ | ✓ | ✓ | ✓ | ✓ |
Persyaratan input
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Format file yang didukung:
Model PDF Gambar:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (Pratinjau 2024-02-29) Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar
8
-point pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.
Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1GB
dengan maksimum 10.000 halaman.
Catatan
Alat pelabelan sampel tidak mendukung format file BMP. Ini adalah batasan alat bukan Document Intelligence Service.
Migrasi versi
Anda dapat mempelajari cara menggunakan Kecerdasan Dokumen v3.0 di aplikasi Anda dengan mengikuti panduan migrasi Kecerdasan Dokumen v3.1 kami
Langkah berikutnya
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk