Menggunakan pengklasifikasi inkremental Kecerdasan Dokumen
Konten ini berlaku untuk: v4.0 (pratinjau)
Azure AI Document Intelligence adalah layanan Azure AI berbasis cloud yang memungkinkan Anda membangun solusi pemrosesan dokumen cerdas. API Kecerdasan Dokumen menganalisis gambar, PDF, dan file dokumen lainnya untuk mengekstrak dan mendeteksi berbagai konten, tata letak, gaya, dan elemen semantik.
Model klasifikasi kustom Kecerdasan Dokumen adalah jenis model pembelajaran mendalam yang menggabungkan fitur tata letak dan bahasa untuk mendeteksi dan mengidentifikasi dokumen yang Anda proses dalam aplikasi Anda secara akurat. Model klasifikasi kustom melakukan klasifikasi file input satu halaman sekaligus untuk mengidentifikasi dokumen di dalamnya dan juga dapat mengidentifikasi beberapa dokumen atau beberapa instans dari satu dokumen dalam file input.
Pengklasifikasi dokumen Kecerdasan Dokumen mengidentifikasi jenis dokumen yang diketahui dalam file. Saat memproses file input dengan beberapa jenis dokumen atau saat Anda tidak mengetahui jenis dokumen, gunakan pengklasifikasi untuk mengidentifikasi dokumen. Pengklasifikasi harus diperbarui secara berkala setiap kali perubahan berikut terjadi:
- Anda menambahkan templat baru untuk kelas yang sudah ada.
- Anda menambahkan jenis dokumen baru untuk pengenalan.
- Keyakinan pengklasifikasi rendah.
Dalam beberapa skenario, Anda tidak dapat lagi memiliki sekumpulan dokumen asli yang digunakan untuk melatih pengklasifikasi. Dengan pelatihan inkremental, Anda dapat memperbarui pengklasifikasi hanya dengan sampel berlabel baru.
Catatan
Pelatihan bertahap hanya berlaku untuk model pengklasifikasi dokumen dan bukan model kustom.
Pelatihan inkremental berguna ketika Anda ingin meningkatkan kualitas pengklasifikasi kustom. Menambahkan sampel pelatihan baru untuk kelas yang ada meningkatkan kepercayaan diri model untuk jenis dokumen yang ada. Misalnya, jika versi baru formulir yang sudah ada ditambahkan atau ada jenis dokumen baru. Contohnya bisa ketika aplikasi Anda mulai mendukung jenis dokumen baru sebagai input yang valid.
Mulai menggunakan pelatihan bertambah bertahas
Pelatihan inkremental tidak memperkenalkan titik akhir API baru.
Payload
documentClassifiers:build
permintaan dimodifikasi untuk mendukung pelatihan inkremental.Pelatihan inkremental menghasilkan model pengklasifikasi baru yang dibuat dengan pengklasifikasi yang ada yang tidak tersentuh.
Pengklasifikasi baru memiliki semua sampel dokumen dan jenis pengklasifikasi lama bersama dengan sampel yang baru disediakan. Anda perlu memastikan aplikasi Anda diperbarui untuk bekerja dengan pengklasifikasi yang baru dilatih.
Catatan
Operasi salin untuk pengklasifikasi saat ini tidak tersedia.
Membuat permintaan build pengklasifikasi inkremental
Permintaan build pengklasifikasi inkremental mirip classify document
dengan permintaan build tetapi menyertakan properti baru baseClassifierId
. baseClassifierId
diatur ke pengklasifikasi yang ada yang ingin Anda perluas. Anda juga perlu menyediakan docTypes
untuk berbagai jenis dokumen dalam kumpulan sampel. Dengan menyediakan docType
yang ada di baseClassifier, sampel yang disediakan dalam permintaan ditambahkan ke sampel yang disediakan ketika pengklasifikasi dasar dilatih. Nilai baru docType
yang ditambahkan dalam pelatihan inkremental hanya ditambahkan ke pengklasifikasi baru. Proses untuk menentukan sampel tetap tidak berubah. Untuk informasi selengkapnya, lihat melatih model pengklasifikasi.
Contoh permintaan POST
Contoh POST
permintaan untuk membangun pengklasifikasi dokumen tambahan
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
Respons POST
Semua API Kecerdasan Dokumen tidak sinkron, polling lokasi operasi yang dikembalikan memberikan status pada operasi build. Pengklasifikasi cepat untuk melatih dan pengklasifikasi Anda dapat siap digunakan dalam satu atau dua menit.
Setelah berhasil diselesaikan:
- Metode yang berhasil
POST
mengembalikan kode respons yang202 OK
menunjukkan bahwa layanan membuat permintaan. - Dokumen yang diterjemahkan terletak di kontainer target Anda.
- Permintaan ini
POST
juga mengembalikan header respons termasukOperation-Location
. Nilai header ini berisiresultId
yang dapat dikueri untuk mendapatkan status operasi asinkron dan mengambil hasilnya menggunakanGET
permintaan dengan kunci langganan sumber daya yang sama.
Contoh permintaan GET
Contoh GET
permintaan untuk mengambil hasil pengklasifikasi dokumen tambahan
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
Respons GET
GET
Respons dari pengklasifikasi yang dilatih secara bertahap berbeda dari respons pengklasifikasi GET
standar. Pengklasifikasi yang dilatih secara bertahap tidak mengembalikan semua jenis dokumen yang didukung. Ini mengembalikan jenis dokumen yang ditambahkan atau diperbarui dalam langkah pelatihan inkremental dan pengklasifikasi dasar yang diperluas. Untuk mendapatkan daftar lengkap jenis dokumen, pengklasifikasi dasar harus dicantumkan. Menghapus pengklasifikasi dasar tidak memengaruhi penggunaan pengklasifikasi yang dilatih secara bertahap.
Batas
Pelatihan inkremental hanya berfungsi ketika pengklasifikasi dasar dan pengklasifikasi yang dilatih secara bertahap keduanya dilatih pada versi API yang sama. Akibatnya, pengklasifikasi yang dilatih secara bertahap memiliki siklus hidup model yang sama dengan pengklasifikasi dasar.
Batas ukuran himpunan data pelatihan untuk pengklasifikasi inkremental sama dengan untuk model pengklasifikasi lainnya. Lihat batas layanan untuk daftar lengkap batas yang berlaku.
Langkah berikutnya
- Pelajari selengkapnya tentang klasifikasi dokumen