Özel modelleri eğitin ve kullanın

Tamamlandı

Tavsiye

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Önceden oluşturulmuş modeller belirli belge türlerinizi kapsamadığında, özel modelleri kendi formlarınızdan veri ayıklamak için eğitebilirsiniz. Azure Belge Zekası, örnek belgeleri ayıklamak istediğiniz alanlarla etiketlediğiniz denetimli makine öğrenmesini destekler ve hizmet bir modeli yeni belgelerdeki bu alanları tanıyacak şekilde eğiter.

Özel model türleri

Azure Document Intelligence iki tür özel ayıklama modeli ve bir sınıflandırma modeli sunar:

Özel şablon modelleri

Özel şablon modelleri, etiketlenmiş verileri ayıklamak için tutarlı bir görsel şablonu kullanır. Yapılandırılmış formlar, düzenin bir belge örneğinden diğerine statik olduğu anketler, uygulamalar veya standart resmi formlar gibi belgeler için en iyi sonucu verir.

Şablon modelleri etiketli anahtar-değer çiftlerini, seçim işaretlerini, tabloları, bölgeleri ve imzaları doğru bir şekilde ayıklar. Eğitim yalnızca birkaç dakika sürer ve 100'den fazla dil desteklenir. Şablon modelleri hızlı eğitildiğinden ve çalıştırması uygun maliyetli olduğundan, belgeleriniz tekdüzen bir görsel düzene sahip olduğunda iyi bir başlangıç noktasıdır.

Özel sinir modelleri

Özel sinir modelleri derin öğrenme kullanır ve etiketlenmiş verilerinizde ince ayarlar yapılır. Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgelerden alan ayıklamak için düzen ve dil özelliklerini birleştirir. Sinir modelleri şunları destekler:

  • Çakışan alanlar
  • İmza algılama
  • Tablo, satır ve hücre düzeyi güven seviyesi

Sinir modelleri, özellikle düzenin örnekler arasında değiştiği yarı yapılandırılmış veya yapılandırılmamış belgeler için şablon modellerinden daha yüksek doğruluk sağlar. Ancak, eğitimleri daha uzun sürer ve daha fazla kaynak tüketir.

Şablon ve sinir modelleri arasında seçim yapma

Hangi özel model türünün kullanılacağına karar verirken, dezavantajları göz önünde bulundurun:

Faktör Özel şablon Özel nöral
En uygun Tutarlı görsel düzene sahip yapılandırılmış formlar Farklı düzenlere sahip yarı yapılandırılmış veya yapılandırılmamış belgeler
Eğitim süresi Minutes Daha uzun (veri kümesi boyutuna bağlıdır)
Eğitim maliyeti Aşağı Daha yüksek
Accuracy Sabit düzenlemeli formlar için yüksek; düzen çeşitlendiğinde azalır Özellikle biçim varyasyonu olan belgeler için genel olarak daha yüksek
Dil desteği 100'den fazla dil Daha az dil (geçerli destek belgelerine bakın)
Özellik desteği Anahtar-değer çiftleri, seçim işaretleri, tablolar, bölgeler, imzalar Çakışan alanlar, imza algılama, tablo/satır/hücre güvenilirliği

Tavsiye

Formlarınızın tutarlı bir görsel düzeni varsa özel bir şablon modeliyle başlayın. Eğitmek daha hızlı ve daha ucuz. Doğruluk yetersizse veya belgeleriniz biçim olarak değişiyorsa, özel bir sinir modeline geçin.

Özel sınıflandırıcılar

Özel sınıflandırma modelleri, ayıklama modelini çağırmadan önce belgenin türünü tanımlar. Birden çok form türünü işlerken gelen belgeleri uygun ayıklama modeline yönlendirmek için sınıflandırıcı kullanabilirsiniz.

Özel bir modeli eğitme

Özel ayıklama modelini eğitmek için:

  1. Örnek formları, düzen ve etiket alanı bilgilerini içeren JSON dosyalarıyla birlikte bir Azure blob kapsayıcısında depolayın:
    • Her örnek form için bir ocr.json dosya (Belgeyi çözümle işlevi kullanılarak oluşturulur).
    • Ayıklamak istediğiniz alanları tanımlayan tek bir fields.json dosya.
    • labels.json Her örnek form için bir dosya, alanları formdaki konumlarıyla eşler.
  2. Kapsayıcı için paylaşılan erişim imzası (SAS) URL'si oluşturun.
  3. Derleme modeli REST API işlevini veya eşdeğer SDK yöntemini kullanın.
  4. Eğitilmiş model kimliğini almak için Modeli al REST API işlevini kullanın.

Ayrıca, Document Intelligence Studio'yu kullanma ünitesinde açıklandığı gibi, Document Intelligence Studio'yu kullanarak özel modelleri görsel olarak eğitebilirsiniz.

Tavsiye

Eğitim için en az beş-altı örnek form kullanın. Daha büyük ve daha çeşitli bir veri kümesi daha doğru modeller üretir.

Özel model kullanma

Form verilerini özel bir modelle ayıklamak için, model kimliğiniz ile Belgeyi çözümle işlevini çağırın. Desteklenen bir SDK veya REST API kullanabilirsiniz.

C#

string endpoint = "<endpoint>";
string apiKey = "<apiKey>";
AzureKeyCredential credential = new AzureKeyCredential(apiKey);
DocumentAnalysisClient client = new DocumentAnalysisClient(new Uri(endpoint), credential);

string modelId = "<modelId>";
Uri fileUri = new Uri("<fileUri>");

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, modelId, fileUri);
AnalyzeResult result = operation.Value;

Python

endpoint = "YOUR_DOC_INTELLIGENCE_ENDPOINT"
key = "YOUR_DOC_INTELLIGENCE_KEY"

model_id = "YOUR_CUSTOM_BUILT_MODEL_ID"
formUrl = "YOUR_DOCUMENT"

document_analysis_client = DocumentAnalysisClient(
    endpoint=endpoint, credential=AzureKeyCredential(key)
)

task = document_analysis_client.begin_analyze_document_from_url(model_id, formUrl)
result = task.result()

Başarılı bir yanıt, ayıklanan içeriğe sahip bir analyzeResult nesne ve belge hakkında bilgi içeren bir sayfa dizisi içerir.

Oluşturulan modeller

Birden çok özel modeli tek bir oluşturulmuş modelde birleştirebilirsiniz. Oluşturulan bir modele belge gönderdiğinizde, Belge Zekası en uygun bileşen modelini belirlemek için belgeyi sınıflandırır ve ardından bu modelden elde edilen ayıklama sonuçlarını döndürür. Bu yaklaşım, her biri kendi ayıklama modeli gerektiren birden çok form türünü işlediğiniz zaman kullanışlıdır.

Daha fazla bilgi edinin