Model klasifikasi kustom Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
  • Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
  • Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
  • US Timur
  • US Barat2
  • Eropa Barat

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau)

Penting

  • 2024-02-29-preview API, model klasifikasi kustom tidak akan membagi dokumen secara default selama proses analisis.
  • Anda perlu secara eksplisit mengatur splitMode properti ke otomatis untuk mempertahankan perilaku dari rilis sebelumnya. Default untuk splitMode adalah none.
  • Jika file input Anda berisi beberapa dokumen, Anda perlu mengaktifkan pemisahan dengan mengatur ke splitModeauto.

Azure AI Document Intelligence adalah layanan Azure AI berbasis cloud yang memungkinkan Anda membangun solusi pemrosesan dokumen cerdas. API Kecerdasan Dokumen menganalisis gambar, PDF, dan file dokumen lainnya untuk mengekstrak dan mendeteksi berbagai konten, tata letak, gaya, dan elemen semantik.

Model klasifikasi kustom adalah jenis model pembelajaran mendalam yang menggabungkan fitur tata letak dan bahasa untuk mendeteksi dan mengidentifikasi dokumen yang Anda proses dalam aplikasi Anda secara akurat. Model klasifikasi kustom melakukan klasifikasi file input satu halaman sekaligus untuk mengidentifikasi dokumen di dalamnya dan juga dapat mengidentifikasi beberapa dokumen atau beberapa instans satu dokumen dalam file input.

Kemampuan model

Catatan

  • Dimulai dengan 2024-02-29-preview API, model klarifikasi kustom mendukung pelatihan inkremental. Anda dapat menambahkan sampel baru ke kelas yang sudah ada atau menambahkan kelas baru dengan mereferensikan pengklasifikasi yang ada.

Model klasifikasi kustom dapat menganalisis dokumen satu atau beberapa file untuk mengidentifikasi apakah salah satu jenis dokumen terlatih terkandung dalam file input. Berikut adalah skenario yang saat ini didukung:

  • Satu file yang berisi satu dokumen. Misalnya, formulir aplikasi pinjaman.

  • Satu file yang berisi beberapa dokumen. Misalnya, paket aplikasi pinjaman yang berisi formulir aplikasi pinjaman, payslip, dan rekening koran bank.

  • Satu file yang berisi beberapa instans dari dokumen yang sama. Misalnya, kumpulan faktur yang dipindai.

✔️ Melatih pengklasifikasi kustom memerlukan setidaknya two kelas yang berbeda dan minimal five sampel dokumen per kelas. Respons model berisi rentang halaman untuk setiap kelas dokumen yang diidentifikasi.

✔️ Jumlah maksimum kelas yang diizinkan adalah 500. Jumlah maksimum sampel dokumen yang diizinkan per kelas adalah 100.

Model mengklasifikasikan setiap halaman dokumen input ke salah satu kelas dalam himpunan data berlabel. Untuk mengatur ambang batas untuk aplikasi Anda, gunakan skor keyakinan dari respons.

Pelatihan inkremental

Dengan model kustom, Anda perlu mempertahankan akses ke himpunan data pelatihan untuk memperbarui pengklasifikasi Anda dengan sampel baru untuk kelas yang sudah ada, atau menambahkan kelas baru. Model pengklasifikasi sekarang mendukung pelatihan inkremental di mana Anda dapat mereferensikan pengklasifikasi yang ada dan menambahkan sampel baru untuk kelas yang sudah ada atau menambahkan kelas baru dengan sampel. Pelatihan inkremental memungkinkan skenario di mana retensi data adalah tantangan dan pengklasifikasi perlu diperbarui untuk selaras dengan perubahan kebutuhan bisnis. Pelatihan inkremental didukung dengan model yang dilatih dengan versi API dan yang lebih 2024-02-29-preview baru.

Penting

Pelatihan inkremental hanya didukung dengan model yang dilatih dengan versi API yang sama. Jika Anda mencoba memperluas model, gunakan versi API, model asli dilatih untuk memperluas model. Pelatihan tambahan hanya didukung dengan API versi 2024-02-29-preview atau yang lebih baru.

Pelatihan inkremental mengharuskan Anda memberikan ID model asli sebagai baseClassifierId. Lihat pelatihan inkremental untuk mempelajari selengkapnya tentang cara menggunakan pelatihan inkremental.

Dukungan jenis dokumen Office

Anda sekarang dapat melatih pengklasifikasi untuk mengenali jenis dokumen dalam berbagai format termasuk PDF, gambar, Word, PowerPoint, dan Excel. Saat merakit himpunan data pelatihan, Anda dapat menambahkan dokumen dari salah satu jenis yang didukung. Pengklasifikasi tidak mengharuskan Anda untuk secara eksplisit memberi label jenis tertentu. Sebagai praktik terbaik, pastikan himpunan data pelatihan Anda memiliki setidaknya satu sampel dari setiap format untuk meningkatkan akurasi model secara keseluruhan.

Membandingkan klasifikasi kustom dan model yang disusun

Model klasifikasi kustom dapat menggantikan model yang terdiri dalam beberapa skenario tetapi ada beberapa perbedaan yang perlu diperhatikan:

Kemampuan Proses pengklasifikasi kustom Proses model yang terdiri
Analisis satu dokumen jenis yang tidak diketahui milik salah satu jenis yang dilatih untuk pemrosesan model ekstraksi. ● Membutuhkan beberapa panggilan.
● Panggil model klasifikasi berdasarkan kelas dokumen. Langkah ini memungkinkan pemeriksaan berbasis keyakinan sebelum memanggil analisis model ekstraksi.
● Panggil model ekstraksi.
● Memerlukan satu panggilan ke model yang terdiri yang berisi model yang sesuai dengan jenis dokumen input.
Analisis satu dokumen jenis yang tidak diketahui milik beberapa jenis yang dilatih untuk pemrosesan model ekstraksi. ●Memerlukan beberapa panggilan.
● Lakukan panggilan ke pengklasifikasi yang mengabaikan dokumen yang tidak cocok dengan jenis yang ditunjuk untuk ekstraksi.
● Panggil model ekstraksi.
● Memerlukan satu panggilan ke model yang terdiri. Layanan memilih model kustom dalam model yang terdiri dengan kecocokan tertinggi.
● Model yang terdiri tidak dapat mengabaikan dokumen.
Analisis file yang berisi beberapa dokumen jenis yang diketahui atau tidak dikenal milik salah satu jenis yang dilatih untuk pemrosesan model ekstraksi. ● Membutuhkan beberapa panggilan.
● Panggil model ekstraksi untuk setiap dokumen yang diidentifikasi dalam file input.
● Panggil model ekstraksi.
● Memerlukan satu panggilan ke model yang terdiri.
● Model yang dibuat memanggil model komponen sekali pada instans pertama dokumen.
●Dokumen yang tersisa diabaikan.

Dukungan bahasa

Model klasifikasi saat ini hanya mendukung dokumen bahasa Inggris.

Model klasifikasi sekarang dapat dilatih pada dokumen dari berbagai bahasa. Lihat bahasa yang didukung untuk daftar lengkap.

Persyaratan input

Format file yang didukung:

Model PDF Gambar:
jpeg/jpg, png, bmp, tiff, heif
Microsoft Office:
Word (docx), Excel (xlxs), PowerPoint (pptx)
Read
Tata letak ✔ (2024-02-29-preview, 2023-10-31-preview, dan yang lebih baru)
Dokumen Umum
Bawaan
Ekstraksi kustom
Klasifikasi kustom
  • Untuk hasil terbaik, berikan lima foto yang jelas atau pemindaian berkualitas tinggi per jenis dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar 8-point pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

  • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.

  • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman.

Pemisahan dokumen

Saat Anda memiliki lebih dari satu dokumen dalam file, pengklasifikasi dapat mengidentifikasi berbagai jenis dokumen yang terkandung dalam file input. Respons pengklasifikasi berisi rentang halaman untuk setiap jenis dokumen yang diidentifikasi yang terkandung dalam file. Respons ini dapat mencakup beberapa instans dengan jenis dokumen yang sama.

Operasi analisis sekarang menyertakan splitMode properti yang memberi Anda kontrol terperinci atas perilaku pemisahan.

  • Untuk memperlakukan seluruh file input sebagai satu dokumen untuk klasifikasi, atur splitMode ke none. Ketika Anda melakukannya, layanan hanya mengembalikan satu kelas untuk seluruh file input.
  • Untuk mengklasifikasikan setiap halaman file input, atur splitMode ke perPage. Layanan ini mencoba mengklasifikasikan setiap halaman sebagai dokumen individual.
  • Atur splitMode ke auto dan layanan mengidentifikasi dokumen dan rentang halaman terkait.

Praktik terbaik

Model klasifikasi kustom memerlukan minimal lima sampel per kelas untuk dilatih. Jika kelas serupa, menambahkan sampel pelatihan tambahan akan meningkatkan akurasi model.

Pengklasifikasi mencoba menetapkan setiap dokumen ke salah satu kelas, jika Anda mengharapkan model untuk melihat jenis dokumen yang bukan di kelas yang merupakan bagian dari himpunan data pelatihan, Anda harus berencana untuk mengatur ambang batas pada skor klasifikasi atau menambahkan beberapa sampel representatif dari jenis dokumen ke "other" kelas. "other" Menambahkan kelas memastikan bahwa dokumen yang tidak diperlukan tidak memengaruhi kualitas pengklasifikasi Anda.

Melatih model

Model klasifikasi kustom didukung oleh API v4.0:2024-02-29-preview dan v3.1:2023-07-31 (GA ). Document Intelligence Studio menyediakan antarmuka pengguna tanpa kode untuk melatih pengklasifikasi kustom secara interaktif. Ikuti panduan cara memulai.

Saat menggunakan REST API, jika Anda mengatur dokumen menurut folder, Anda dapat menggunakan azureBlobSource properti permintaan untuk melatih model klasifikasi.


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Atau, jika Anda memiliki daftar datar file atau hanya berencana untuk menggunakan beberapa file tertentu dalam setiap folder untuk melatih model, Anda dapat menggunakan azureBlobFileListSource properti untuk melatih model. Langkah ini memerlukan file list dalam format Baris JSON. Untuk setiap kelas, tambahkan file baru dengan daftar file yang akan dikirimkan untuk pelatihan.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Sebagai contoh, daftar car-maint.jsonl file berisi file berikut.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Respons model

Analisis file input dengan model klasifikasi dokumen.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Respons berisi dokumen yang diidentifikasi dengan rentang halaman terkait di bagian dokumen respons.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Langkah berikutnya

Pelajari cara membuat model klasifikasi kustom: