Bu içerik şunlar için geçerlidir:v4.0 (GA) | Önceki sürüm:v3.1 (GA)
Bu içerik şunlar için geçerlidir:v3.1 (GA) | En son sürüm:v4.0 (GA)
Önemli
v4.0 2024-11-30 (GA) API, özel sınıflandırma modeli, analiz işlemi sırasında belgeleri varsayılan olarak bölmez.
Önceki sürümlerden davranışı korumak için özelliğini açıkça otomatik olarak ayarlamanız splitMode gerekir. için splitMode varsayılan değeridir none.
Giriş dosyanız birden çok belge içeriyorsa, öğesini olarak ayarlayarak bölmeyi splitModeautoetkinleştirmeniz gerekir.
Azure AI Document Intelligence, akıllı belge işleme çözümleri oluşturmanıza olanak tanıyan bulut tabanlı bir Azure AI hizmetidir. Belge Yönetim Bilgileri API'leri çeşitli içeriği, düzeni, stili ve anlamsal öğeleri ayıklamak ve algılamak için görüntüleri, PDF'leri ve diğer belge dosyalarını analiz edin.
Özel sınıflandırma modelleri, uygulamanızda işlediğiniz belgeleri doğru bir şekilde algılamak ve tanımlamak için düzen ve dil özelliklerini birleştiren derin öğrenme modeli türleridir. Özel sınıflandırma modelleri, bir giriş dosyasının sınıflandırmasını, içindeki belgeleri tanımlamak için tek seferde bir sayfa yapar ve ayrıca bir giriş dosyasındaki tek bir belgenin birden çok örneğini veya birden çok belgeyi tanımlayabilir.
Model özellikleri
Not
Özel sınıflandırma v4.0 2024-11-30 (GA) modelleri artımlı eğitimi destekler. Mevcut sınıflara yeni örnekler ekleyebilir veya var olan bir sınıflandırıcıya başvurarak yeni sınıflar ekleyebilirsiniz.
Özel sınıflandırma v3.1 2023-07-31 (GA) modeli model kopyalamayı desteklemez. Model kopyalama özelliğini kullanmak için lütfen en son v4.0 GA modelini kullanarak modeli eğitin.
Özel sınıflandırma modelleri, eğitilen belge türlerinden herhangi birinin bir giriş dosyasında yer alan olup olmadığını belirlemek için tek veya çok dosyalı belgeleri analiz edebilir. Şu anda desteklenen senaryolar şunlardır:
Kredi başvuru formu gibi tek bir belge türü içeren tek bir dosya.
Birden çok belge türü içeren tek bir dosya. Örneğin, kredi başvuru formu, ödeme ve banka ekstresi içeren bir kredi uygulama paketi.
Aynı belgenin birden çok örneğini içeren tek bir dosya. Örneğin, taranan faturaların koleksiyonu.
✔️ Özel bir sınıflandırıcının eğitimi için en az two ayrı sınıflar ve sınıf başına en az five belge örneği gerekir. Model yanıtı, tanımlanan belge sınıflarının her biri için sayfa aralıklarını içerir.
✔️ İzin verilen en fazla sınıf sayısıdır 1,000. Sınıf başına izin verilen en fazla belge örneği sayısıdır 100.
Model, belirtilmediği sürece giriş belgesinin her sayfasını etiketlenmiş veri kümesindeki sınıflardan birine sınıflandırır. Giriş belgesinde analiz etmek için sayfa numaralarını da belirtebilirsiniz. Uygulamanızın eşiğini ayarlamak için yanıttan güvenilirlik puanını kullanın.
Artımlı eğitim
Özel modellerle, sınıflandırıcınızı mevcut bir sınıf için yeni örneklerle güncelleştirmek veya yeni sınıflar eklemek için eğitim veri kümesine erişimi korumanız gerekir. Sınıflandırıcı modelleri artık mevcut bir sınıflandırıcıya başvurabileceğiniz ve mevcut bir sınıf için yeni örnekler ekleyebileceğiniz veya örneklerle yeni sınıflar ekleyebileceğiniz artımlı eğitimi destekliyor. Artımlı eğitim, veri saklamanın zor olduğu ve sınıflandırıcının değişen iş gereksinimleriyle uyumlu olacak şekilde güncelleştirilmesi gereken senaryolara olanak tanır. Artımlı eğitim, API sürümü v4.0 2024-11-30 (GA)ile eğitilen modellerle desteklenir.
Önemli
Artımlı eğitim yalnızca aynı API sürümüyle eğitilen modellerde desteklenir. Modeli genişletmeye çalışıyorsanız, modeli genişletmek için özgün modelin eğitildiği API sürümünü kullanın. Artımlı eğitim yalnızca API sürümü v4.0 2024-11-30 (GA) veya sonraki sürümlerde desteklenir.
Artık sınıflandırıcıları PDF, resimler, Word, PowerPoint ve Excel gibi çeşitli biçimlerde belge türlerini tanıyacak şekilde eğitebilirsiniz. Eğitim veri kümenizi derlerken desteklenen türlerden herhangi birinin belgelerini ekleyebilirsiniz. Sınıflandırıcı, belirli türleri açıkça etiketlemenizi gerektirmez. En iyi uygulama olarak, modelin genel doğruluğunu geliştirmek için eğitim veri kümenizde her biçimin en az bir örneğine sahip olduğundan emin olun.
Özel sınıflandırma ve oluşturulan modelleri karşılaştırma
Özel sınıflandırma modeli bazı senaryolarda oluşturulan modelin yerini alabilir, ancak dikkat edilmesi gereken birkaç fark vardır:
Özellik
Özel sınıflandırıcı işlemi
Oluşturulan model işlemi
Ayıklama modeli işleme için eğitilen türlerden birine ait bilinmeyen türde tek bir belgeyi analiz edin.
● Birden çok arama gerektirir. ● Belge sınıfına göre sınıflandırma modelini çağırın. Bu adım, ayıklama modeli analizini çağırmadan önce güvenilirlik tabanlı bir denetime olanak tanır. ● Ayıklama modelini çağırın.
● Giriş belgesi türüne karşılık gelen modeli içeren bir oluşturulmuş modele tek bir çağrı gerektirir.
Ayıklama modeli işleme için eğitilen çeşitli türlere ait bilinmeyen türde tek bir belgeyi analiz edin.
●Birden çok arama gerektirir. ● Ayıklama için belirlenen bir türle eşleşmeyen belgeleri yoksayan sınıflandırıcıya bir çağrı yapın. ● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir. Hizmet, oluşturulan model içinde en yüksek eşleşmeye sahip özel bir model seçer. ● Oluşturulan bir model belgeleri yoksayamaz.
Ayıklama modeli işleme için eğitilen türlerden birine ait, bilinen veya bilinmeyen türde birden çok belge içeren bir dosyayı analiz edin.
● Birden çok arama gerektirir. ● Giriş dosyasında tanımlanan her belge için ayıklama modelini çağırın. ● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir. ● Oluşturulan model, belgenin ilk örneğinde bileşen modelini bir kez çağırır. ●Kalan belgeler yoksayılır.
Dil desteği
Sınıflandırma modelleri şu anda yalnızca İngilizce belgeleri desteklemektedir.
Sınıflandırma modelleri artık farklı dillerdeki belgeler üzerinde eğitilebilir. Tam liste için desteklenen dillere bakın.
Giriş gereksinimleri
Desteklenen dosya biçimleri:
Model
PDF
Görüntü: jpeg/jpg, png, bmp, tiff, , heif
Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx)
Okundu
✔
✔
✔
Düzen
✔
✔
✔
Genel Belge
✔
✔
Önceden oluşturulmuş
✔
✔
Özel ayıklama
✔
✔
Özel sınıflandırma
✔
✔
✔ (stüdyoda desteklenmez)
En iyi sonuçlar için belge türü başına beş net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8-point metnine karşılık gelir.
Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.
Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 25.000 sayfa ile 2 GB'tır.
Belge bölme
Bir dosyada birden fazla belgeniz olduğunda, sınıflandırıcı giriş dosyasında bulunan farklı belge türlerini tanımlayabilir. Sınıflandırıcı yanıtı, bir dosyanın içinde yer alan tanımlanan belge türlerinin her biri için sayfa aralıklarını içerir. Bu yanıt, aynı belge türünün birden çok örneğini içerebilir.
İşlem analyze artık bölme davranışı üzerinde ayrıntılı denetim sağlayan bir splitMode özellik içerir.
Giriş dosyasının tamamını sınıflandırma için tek bir belge olarak işlemek için splitMode değerini olarak noneayarlayın. Bunu yaptığınızda, hizmet giriş dosyasının tamamı için yalnızca bir sınıf döndürür.
Giriş dosyasının her sayfasını sınıflandırmak için splitMode değerini olarak perPageayarlayın. Hizmet, her sayfayı tek bir belge olarak sınıflandırmaya çalışır.
splitMode auto değerini olarak ayarlayın; hizmet belgeleri ve ilişkili sayfa aralıklarını tanımlar.
En iyi yöntemler
Özel sınıflandırma modelleri eğitmek için sınıf başına en az beş örnek gerektirir. Sınıflar benzerse, ek eğitim örnekleri eklemek model doğruluğunu artırır.
Sınıflandırıcı her belgeyi sınıflardan birine atamayı dener. Modelin eğitim veri kümesinin parçası olan sınıflarda bulunmayan belge türlerini görmesini bekliyorsanız, sınıflandırma puanında bir eşik ayarlamayı veya bir sınıfa "other" belge türlerinin birkaç temsili örneğini eklemeyi planlamanız gerekir.
"other" Sınıf eklemek, gerekli olmayan belgelerin sınıflandırıcı kalitenizi etkilememesini sağlar.
REST API kullanırken, belgelerinizi klasörlere göre düzenlerseniz, sınıflandırma modelini eğitmek için isteğin özelliğini kullanabilirsiniz azureBlobSource .
https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/deed-of-trust/"
}
}
}
}
Alternatif olarak, düz bir dosya listeniz varsa veya modeli eğitmek için her klasörde yalnızca birkaç seçme dosyası kullanmayı planlıyorsanız, modeli eğitmek için özelliğini kullanabilirsiniz azureBlobFileListSource . Bu adım için JSON Çizgileri biçiminde bir file listgerekir. Her sınıf için, eğitim için gönderilecek dosyaların listesini içeren yeni bir dosya ekleyin.
JSON
{
"classifierId": "demo2",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/car-maint.jsonl"
}
},
"cc-auth": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/cc-auth.jsonl"
}
},
"deed-of-trust": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/deed-of-trust.jsonl"
}
}
}
}
Örnek olarak, dosya listesi car-maint.jsonl aşağıdaki dosyaları içerir.
JSON
{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}
Modelin üzerine yazma
Not
v4.0 2024-11-30 (GA) özel sınıflandırma modeli, bir modelin yerinde üzerine yazmayı destekler.
Artık özel sınıflandırmayı yerinde güncelleştirebilirsiniz. Modelin üzerine doğrudan yazmak, mevcut modeli değiştirmeyi seçmeden önce model kalitesini karşılaştırma olanağınızı kaybedersiniz. Özellik istek gövdesinde açıkça belirtildiğinde model üzerine yazmaya izin verilir allowOverwrite . Bu eylem gerçekleştirildikten sonra üzerine yazılan özgün modeli kurtarmak mümkün değildir.
Aşağıdaki HTTP isteği, hedef kaynağınızdan kopyalama yetkilendirmesini alır. Hedef kaynağınızın uç noktasını ve anahtarını üst bilgi olarak girmeniz gerekir.
HTTP
POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Aşağıdaki HTTP isteği, kaynak kaynakta kopyalama işlemini başlatır. Kaynak kaynağınızın uç noktasını ve anahtarını URL ve üst bilgi olarak girmeniz gerekir. İstek URL'sinin kopyalamak istediğiniz kaynak sınıflandırıcının sınıflandırıcı kimliğini içerdiğine dikkat edin.
HTTP
POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
İsteğinizin gövdesi, önceki adımda verilen yanıttır.
Diğer geliştiriciler ve uzmanlarla gerçek dünyadaki kullanım örneklerini temel alan ölçeklenebilir yapay zeka çözümleri oluşturmak için toplantı serisine katılın.
Önceden oluşturulmuş Forms Analyzer modellerini seçerek hangi verileri çözümleyebileceğinizi ve bu modellerin belge zekası çözümünde nasıl dağıtılacağı hakkında bilgi edinin.
Python, Azure Machine Learning ve MLflow ile veri alımını ve hazırlığını, model eğitimini ve dağıtımlarını ve makine öğrenmesi çözümü izlemeyi yönetin.
Bir modeli yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgelerden veri ayıklamak üzere eğitmek için özel sinirsel belge modelini kullanın.