Bagikan melalui


Menggunakan pengklasifikasi inkremental Kecerdasan Dokumen

Konten ini berlaku untuk: tanda centang v4.0 (pratinjau) tanda centang

Azure AI Document Intelligence adalah layanan Azure AI berbasis cloud yang memungkinkan Anda membangun solusi pemrosesan dokumen cerdas. API Kecerdasan Dokumen menganalisis gambar, PDF, dan file dokumen lainnya untuk mengekstrak dan mendeteksi berbagai konten, tata letak, gaya, dan elemen semantik.

Model klasifikasi kustom Kecerdasan Dokumen adalah jenis model pembelajaran mendalam yang menggabungkan fitur tata letak dan bahasa untuk mendeteksi dan mengidentifikasi dokumen yang Anda proses dalam aplikasi Anda secara akurat. Model klasifikasi kustom melakukan klasifikasi file input satu halaman sekaligus untuk mengidentifikasi dokumen di dalamnya dan juga dapat mengidentifikasi beberapa dokumen atau beberapa instans dari satu dokumen dalam file input.

Pengklasifikasi dokumen Kecerdasan Dokumen mengidentifikasi jenis dokumen yang diketahui dalam file. Saat memproses file input dengan beberapa jenis dokumen atau saat Anda tidak mengetahui jenis dokumen, gunakan pengklasifikasi untuk mengidentifikasi dokumen. Pengklasifikasi harus diperbarui secara berkala setiap kali perubahan berikut terjadi:

  • Anda menambahkan templat baru untuk kelas yang sudah ada.
  • Anda menambahkan jenis dokumen baru untuk pengenalan.
  • Keyakinan pengklasifikasi rendah.

Dalam beberapa skenario, Anda tidak dapat lagi memiliki sekumpulan dokumen asli yang digunakan untuk melatih pengklasifikasi. Dengan pelatihan inkremental, Anda dapat memperbarui pengklasifikasi hanya dengan sampel berlabel baru.

Catatan

Pelatihan bertahap hanya berlaku untuk model pengklasifikasi dokumen dan bukan model kustom.

Pelatihan inkremental berguna ketika Anda ingin meningkatkan kualitas pengklasifikasi kustom. Menambahkan sampel pelatihan baru untuk kelas yang ada meningkatkan kepercayaan diri model untuk jenis dokumen yang ada. Misalnya, jika versi baru formulir yang sudah ada ditambahkan atau ada jenis dokumen baru. Contohnya bisa ketika aplikasi Anda mulai mendukung jenis dokumen baru sebagai input yang valid.

Mulai menggunakan pelatihan bertambah bertahas

  • Pelatihan inkremental tidak memperkenalkan titik akhir API baru.

  • Payload documentClassifiers:build permintaan dimodifikasi untuk mendukung pelatihan inkremental.

  • Pelatihan inkremental menghasilkan model pengklasifikasi baru yang dibuat dengan pengklasifikasi yang ada yang tidak tersentuh.

  • Pengklasifikasi baru memiliki semua sampel dokumen dan jenis pengklasifikasi lama bersama dengan sampel yang baru disediakan. Anda perlu memastikan aplikasi Anda diperbarui untuk bekerja dengan pengklasifikasi yang baru dilatih.

    Catatan

    Operasi salin untuk pengklasifikasi saat ini tidak tersedia.

Membuat permintaan build pengklasifikasi inkremental

Permintaan build pengklasifikasi inkremental mirip classify document dengan permintaan build tetapi menyertakan properti baru baseClassifierId . baseClassifierId diatur ke pengklasifikasi yang ada yang ingin Anda perluas. Anda juga perlu menyediakan docTypes untuk berbagai jenis dokumen dalam kumpulan sampel. Dengan menyediakan docType yang ada di baseClassifier, sampel yang disediakan dalam permintaan ditambahkan ke sampel yang disediakan ketika pengklasifikasi dasar dilatih. Nilai baru docType yang ditambahkan dalam pelatihan inkremental hanya ditambahkan ke pengklasifikasi baru. Proses untuk menentukan sampel tetap tidak berubah. Untuk informasi selengkapnya, lihat melatih model pengklasifikasi.

Contoh permintaan POST

Contoh POST permintaan untuk membangun pengklasifikasi dokumen tambahan

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Respons POST

Semua API Kecerdasan Dokumen tidak sinkron, polling lokasi operasi yang dikembalikan memberikan status pada operasi build. Pengklasifikasi cepat untuk melatih dan pengklasifikasi Anda dapat siap digunakan dalam satu atau dua menit.

Setelah berhasil diselesaikan:

  • Metode yang berhasil POST mengembalikan kode respons yang 202 OK menunjukkan bahwa layanan membuat permintaan.
  • Dokumen yang diterjemahkan terletak di kontainer target Anda.
  • Permintaan ini POST juga mengembalikan header respons termasuk Operation-Location. Nilai header ini berisi resultId yang dapat dikueri untuk mendapatkan status operasi asinkron dan mengambil hasilnya menggunakan GET permintaan dengan kunci langganan sumber daya yang sama.

Contoh permintaan GET

Contoh GET permintaan untuk mengambil hasil pengklasifikasi dokumen tambahan

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Respons GET

GET Respons dari pengklasifikasi yang dilatih secara bertahap berbeda dari respons pengklasifikasi GET standar. Pengklasifikasi yang dilatih secara bertahap tidak mengembalikan semua jenis dokumen yang didukung. Ini mengembalikan jenis dokumen yang ditambahkan atau diperbarui dalam langkah pelatihan inkremental dan pengklasifikasi dasar yang diperluas. Untuk mendapatkan daftar lengkap jenis dokumen, pengklasifikasi dasar harus dicantumkan. Menghapus pengklasifikasi dasar tidak memengaruhi penggunaan pengklasifikasi yang dilatih secara bertahap.

Batas

  • Pelatihan inkremental hanya berfungsi ketika pengklasifikasi dasar dan pengklasifikasi yang dilatih secara bertahap keduanya dilatih pada versi API yang sama. Akibatnya, pengklasifikasi yang dilatih secara bertahap memiliki siklus hidup model yang sama dengan pengklasifikasi dasar.

  • Batas ukuran himpunan data pelatihan untuk pengklasifikasi inkremental sama dengan untuk model pengklasifikasi lainnya. Lihat batas layanan untuk daftar lengkap batas yang berlaku.

Langkah berikutnya