Özel modelleri eğitin ve kullanın
Tavsiye
Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!
Önceden oluşturulmuş modeller belirli belge türlerinizi kapsamadığında, özel modelleri kendi formlarınızdan veri ayıklamak için eğitebilirsiniz. Azure Belge Zekası, örnek belgeleri ayıklamak istediğiniz alanlarla etiketlediğiniz denetimli makine öğrenmesini destekler ve hizmet bir modeli yeni belgelerdeki bu alanları tanıyacak şekilde eğiter.
Özel model türleri
Azure Document Intelligence iki tür özel ayıklama modeli ve bir sınıflandırma modeli sunar:
Özel şablon modelleri
Özel şablon modelleri, etiketlenmiş verileri ayıklamak için tutarlı bir görsel şablonu kullanır. Yapılandırılmış formlar, düzenin bir belge örneğinden diğerine statik olduğu anketler, uygulamalar veya standart resmi formlar gibi belgeler için en iyi sonucu verir.
Şablon modelleri etiketli anahtar-değer çiftlerini, seçim işaretlerini, tabloları, bölgeleri ve imzaları doğru bir şekilde ayıklar. Eğitim yalnızca birkaç dakika sürer ve 100'den fazla dil desteklenir. Şablon modelleri hızlı eğitildiğinden ve çalıştırması uygun maliyetli olduğundan, belgeleriniz tekdüzen bir görsel düzene sahip olduğunda iyi bir başlangıç noktasıdır.
Özel sinir modelleri
Özel sinir modelleri derin öğrenme kullanır ve etiketlenmiş verilerinizde ince ayarlar yapılır. Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgelerden alan ayıklamak için düzen ve dil özelliklerini birleştirir. Sinir modelleri şunları destekler:
- Çakışan alanlar
- İmza algılama
- Tablo, satır ve hücre düzeyi güven seviyesi
Sinir modelleri, özellikle düzenin örnekler arasında değiştiği yarı yapılandırılmış veya yapılandırılmamış belgeler için şablon modellerinden daha yüksek doğruluk sağlar. Ancak, eğitimleri daha uzun sürer ve daha fazla kaynak tüketir.
Şablon ve sinir modelleri arasında seçim yapma
Hangi özel model türünün kullanılacağına karar verirken, dezavantajları göz önünde bulundurun:
| Faktör | Özel şablon | Özel nöral |
|---|---|---|
| En uygun | Tutarlı görsel düzene sahip yapılandırılmış formlar | Farklı düzenlere sahip yarı yapılandırılmış veya yapılandırılmamış belgeler |
| Eğitim süresi | Minutes | Daha uzun (veri kümesi boyutuna bağlıdır) |
| Eğitim maliyeti | Aşağı | Daha yüksek |
| Accuracy | Sabit düzenlemeli formlar için yüksek; düzen çeşitlendiğinde azalır | Özellikle biçim varyasyonu olan belgeler için genel olarak daha yüksek |
| Dil desteği | 100'den fazla dil | Daha az dil (geçerli destek belgelerine bakın) |
| Özellik desteği | Anahtar-değer çiftleri, seçim işaretleri, tablolar, bölgeler, imzalar | Çakışan alanlar, imza algılama, tablo/satır/hücre güvenilirliği |
Tavsiye
Formlarınızın tutarlı bir görsel düzeni varsa özel bir şablon modeliyle başlayın. Eğitmek daha hızlı ve daha ucuz. Doğruluk yetersizse veya belgeleriniz biçim olarak değişiyorsa, özel bir sinir modeline geçin.
Özel sınıflandırıcılar
Özel sınıflandırma modelleri, ayıklama modelini çağırmadan önce belgenin türünü tanımlar. Birden çok form türünü işlerken gelen belgeleri uygun ayıklama modeline yönlendirmek için sınıflandırıcı kullanabilirsiniz.
Özel bir modeli eğitme
Özel ayıklama modelini eğitmek için:
- Örnek formları, düzen ve etiket alanı bilgilerini içeren JSON dosyalarıyla birlikte bir Azure blob kapsayıcısında depolayın:
- Her örnek form için bir
ocr.jsondosya (Belgeyi çözümle işlevi kullanılarak oluşturulur). - Ayıklamak istediğiniz alanları tanımlayan tek bir
fields.jsondosya. -
labels.jsonHer örnek form için bir dosya, alanları formdaki konumlarıyla eşler.
- Her örnek form için bir
- Kapsayıcı için paylaşılan erişim imzası (SAS) URL'si oluşturun.
- Derleme modeli REST API işlevini veya eşdeğer SDK yöntemini kullanın.
- Eğitilmiş model kimliğini almak için Modeli al REST API işlevini kullanın.
Ayrıca, Document Intelligence Studio'yu kullanma ünitesinde açıklandığı gibi, Document Intelligence Studio'yu kullanarak özel modelleri görsel olarak eğitebilirsiniz.
Tavsiye
Eğitim için en az beş-altı örnek form kullanın. Daha büyük ve daha çeşitli bir veri kümesi daha doğru modeller üretir.
Özel model kullanma
Form verilerini özel bir modelle ayıklamak için, model kimliğiniz ile Belgeyi çözümle işlevini çağırın. Desteklenen bir SDK veya REST API kullanabilirsiniz.
C#
string endpoint = "<endpoint>";
string apiKey = "<apiKey>";
AzureKeyCredential credential = new AzureKeyCredential(apiKey);
DocumentAnalysisClient client = new DocumentAnalysisClient(new Uri(endpoint), credential);
string modelId = "<modelId>";
Uri fileUri = new Uri("<fileUri>");
AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, modelId, fileUri);
AnalyzeResult result = operation.Value;
Python
endpoint = "YOUR_DOC_INTELLIGENCE_ENDPOINT"
key = "YOUR_DOC_INTELLIGENCE_KEY"
model_id = "YOUR_CUSTOM_BUILT_MODEL_ID"
formUrl = "YOUR_DOCUMENT"
document_analysis_client = DocumentAnalysisClient(
endpoint=endpoint, credential=AzureKeyCredential(key)
)
task = document_analysis_client.begin_analyze_document_from_url(model_id, formUrl)
result = task.result()
Başarılı bir yanıt, ayıklanan içeriğe sahip bir analyzeResult nesne ve belge hakkında bilgi içeren bir sayfa dizisi içerir.
Oluşturulan modeller
Birden çok özel modeli tek bir oluşturulmuş modelde birleştirebilirsiniz. Oluşturulan bir modele belge gönderdiğinizde, Belge Zekası en uygun bileşen modelini belirlemek için belgeyi sınıflandırır ve ardından bu modelden elde edilen ayıklama sonuçlarını döndürür. Bu yaklaşım, her biri kendi ayıklama modeli gerektiren birden çok form türünü işlediğiniz zaman kullanışlıdır.