Bagikan melalui


Membuat model kustom pemrosesan dokumen

Setelah meninjau persyaratan, Anda dapat mulai membuat model pemrosesan dokumen.

Buat model Anda dengan wizard

Anda dapat membuat model pemrosesan dokumen dengan menggunakan wizard Buat model kustom. Wizard memandu Anda melalui proses pembuatan model untuk mengekstrak informasi dari dokumen.

  1. Masuk ke Power Apps OR Power Automate.

  2. Di panel kiri, pilih ... Lebih banyak>hub AI.

    (Opsional) Untuk menjaga model AI tetap permanen di menu agar mudah diakses, pilih ikon pin di sebelah hub AI.

  3. Di bawah Temukan kemampuan AI, pilih model AI.

  4. Pilih Ekstrak informasi kustom dari dokumen.

  5. Pilih Buat model kustom.

  6. Wizard langkah demi langkah memandu Anda melalui proses dengan meminta Anda untuk mencantumkan semua data yang ingin Anda ekstrak dari dokumen Anda.

    Pelajari lebih lanjut di bagian Pilih jenis dokumen di artikel ini.

    Jika Anda ingin membuat model dengan menggunakan dokumen Anda sendiri, pastikan Anda memiliki setidaknya lima contoh yang menggunakan tata letak yang sama. Jika tidak, Anda dapat menggunakan data sampel untuk membuat model.

  7. Pilih Latih.

  8. Uji model dengan memilih Tes cepat.

Pilih jenis dokumen

Pada langkah Pilih jenis dokumen, pilih jenis dokumen yang ingin Anda buat model AI untuk mengotomatiskan ekstraksi data. Ada tiga opsi: Dokumen templat tetap, Dokumen umum, dan Faktur.

Tangkapan layar dari berbagai jenis dokumen.

  • Dokumen templat tetap: Sebelumnya dikenal sebagai terstruktur, opsi ini ideal ketika, untuk tata letak tertentu, bidang, tabel, kotak centang, tanda tangan, dan item lainnya dapat ditemukan di tempat yang sama. Anda dapat mengajarkan model ini untuk mengekstrak data dari dokumen terstruktur yang memiliki tata letak berbeda. Model ini memiliki waktu pelatihan yang cepat.
  • Dokumen umum: Sebelumnya dikenal sebagai tidak terstruktur, opsi ini ideal untuk semua jenis dokumen, terutama jika tidak ada struktur yang ditetapkan, atau ketika formatnya rumit. Anda dapat mengajarkan model ini untuk mengekstrak data dari dokumen terstruktur atau tidak terstruktur yang memiliki tata letak berbeda. Model ini kuat, tetapi memiliki waktu pelatihan yang lama.
  • Faktur: Tingkatkan perilaku model pemrosesan faktur bawaan dengan menambahkan bidang baru yang akan diekstrak selain yang secara default, atau sampel dokumen yang tidak diekstrak dengan benar.

Memahami versi kecerdasan dokumen

Model kecerdasan dokumen tersedia dalam dua versi: v4.0 dan v3.1. Versi model Anda bergantung pada kapan terakhir kali Anda mengedit model.

Document Intelligence v4.0 - Ketersediaan Umum (GA)

Selain fitur yang tercantum dalam artikel ini, v4.0 mempertahankan semua kemampuan v3.1.

  • Bidang yang tumpang tindih: v4.0 mendukung bidang yang tumpang tindih dalam model kustom, yang memungkinkan Anda mengekstrak informasi secara lebih efektif dari dokumen dengan tata letak yang kompleks.
  • Deteksi tanda tangan: v4.0 mendeteksi tanda tangan dalam dokumen, yang sangat berguna untuk kontrak, perjanjian, dan formulir lain yang ditandatangani.
  • Skor keyakinan untuk tabel: v4.0 memberikan skor keyakinan untuk tabel dan selnya.
  • Peningkatan mesin OCR: v4.0 meningkatkan mesin pengenalan karakter optik (OCR), meningkatkan akurasi pengenalan teks, dan mendukung lebih banyak jenis dan format dokumen.

Kecerdasan Dokumen v3.1 Ketersediaan Umum (GA)

  • v3.1 mendukung model kustom yang dilatih untuk mengenali pola data tertentu, seperti bidang atau struktur teks unik.
  • v3.1 menyertakan model templat kustom yang memungkinkan pengguna membuat templat berdasarkan tata letak dan struktur dokumen mereka.

Periksa versi model

Anda dapat memverifikasi versi yang digunakan untuk melatih dan menerbitkan model Anda. Untuk melakukan ini, pilih Pengaturan>Versi>model yang diterbitkan Versi model terakhir yang dilatih.

Tangkapan layar panel 'Pengaturan model' untuk mendapatkan GA versi model terakhir yang diterbitkan dan GA versi model terlatih terakhir.

Anda dapat memindahkan model dari v3.1 ke v4.0 dengan mengedit, melatih ulang, dan menerbitkannya. Penandaan ulang dan modifikasi spesifik lainnya tidak diperlukan. Pelajari lebih lanjut di FAQ untuk pemrosesan dokumen.

Tentukan informasi untuk diekstrak

Pada layar Pilih informasi untuk diekstrak , tentukan bidang, tabel, dan kotak centang yang ingin Anda ajarkan untuk diekstrak oleh model Anda. Untuk mulai mendefinisikannya, pilih + Tambahkan.

Tangkapan layar langkah dalam wizard pemrosesan dokumen tempat Anda menentukan bidang, tabel, dan kotak centang yang ingin diekstrak oleh model AI.

  1. Untuk setiap bidang teks, berikan nama untuk bidang yang akan digunakan dalam model.

  2. Untuk setiap bidang angka, berikan nama untuk bidang yang akan digunakan dalam model.

    Tentukan format titik (.) atau koma (,) sebagai pemisah desimal.

  3. Untuk setiap bidang Tanggal, berikan nama untuk bidang yang akan digunakan dalam model.

    Juga, tentukan format (Tahun,Bulan,Hari), atau (Bulanan,Hari,Tahun), atau (Hari,Bulan,Tahun).

  4. Untuk setiap kotak centang, berikan nama untuk kotak centang yang akan digunakan dalam model.

    Tentukan kotak centang terpisah untuk setiap item yang dapat dicentang dalam dokumen.

  5. Untuk setiap tabel, berikan nama untuk tabel.

    Tentukan kolom berbeda yang harus diekstrak model.

Catatan

Model faktur kustom dilengkapi dengan kolom default yang tidak dapat diedit.

Kelompokkan dokumen berdasarkan koleksi

Koleksi adalah sekelompok dokumen yang memiliki tata letak yang sama. Buat sebanyak koleksi sebagai tata letak dokumen yang Anda inginkan untuk diproses oleh model Anda. Misalnya, jika Anda membuat model AI untuk memproses faktur dari dua vendor berbeda, masing-masing memiliki templat fakturnya sendiri, buat dua koleksi.

Animasi pembuatan koleksi.

Untuk setiap koleksi yang Anda buat, Anda harus mengunggah setidaknya lima dokumen sampel per koleksi. File dengan format file JPG, PNG, dan PDF diterima.

Animasi pengunggahan dokumen.

Catatan

Anda dapat membuat hingga 200 koleksi per model.

Langkah selanjutnya

Menandai dokumen dalam model pemrosesan dokumen