Ekinlikler
17 Mar 21 - 21 Mar 10
Diğer geliştiriciler ve uzmanlarla gerçek dünyadaki kullanım örneklerini temel alan ölçeklenebilir yapay zeka çözümleri oluşturmak için toplantı serisine katılın.
Hemen kaydolunBu tarayıcı artık desteklenmiyor.
En son özelliklerden, güvenlik güncelleştirmelerinden ve teknik destekten faydalanmak için Microsoft Edge’e yükseltin.
Bu içerik şunlar için geçerlidir:v4.0 (GA) | Önceki sürüm:
v3.1 (GA)
Bu içerik şunlar için geçerlidir:v3.1 (GA) | En son sürüm:
v4.0 (GA)
Önemli
v4.0 2024-11-30 (GA)
API, özel sınıflandırma modeli, analiz işlemi sırasında belgeleri varsayılan olarak bölmez.splitMode
gerekir. için splitMode
varsayılan değeridir none
.splitMode
auto
etkinleştirmeniz gerekir.Azure AI Document Intelligence, akıllı belge işleme çözümleri oluşturmanıza olanak tanıyan bulut tabanlı bir Azure AI hizmetidir. Belge Yönetim Bilgileri API'leri çeşitli içeriği, düzeni, stili ve anlamsal öğeleri ayıklamak ve algılamak için görüntüleri, PDF'leri ve diğer belge dosyalarını analiz edin.
Özel sınıflandırma modelleri, uygulamanızda işlediğiniz belgeleri doğru bir şekilde algılamak ve tanımlamak için düzen ve dil özelliklerini birleştiren derin öğrenme modeli türleridir. Özel sınıflandırma modelleri, bir giriş dosyasının sınıflandırmasını, içindeki belgeleri tanımlamak için tek seferde bir sayfa yapar ve ayrıca bir giriş dosyasındaki tek bir belgenin birden çok örneğini veya birden çok belgeyi tanımlayabilir.
Not
Özel sınıflandırma modelleri, eğitilen belge türlerinden herhangi birinin bir giriş dosyasında yer alan olup olmadığını belirlemek için tek veya çok dosyalı belgeleri analiz edebilir. Şu anda desteklenen senaryolar şunlardır:
Kredi başvuru formu gibi tek bir belge türü içeren tek bir dosya.
Birden çok belge türü içeren tek bir dosya. Örneğin, kredi başvuru formu, ödeme ve banka ekstresi içeren bir kredi uygulama paketi.
Aynı belgenin birden çok örneğini içeren tek bir dosya. Örneğin, taranan faturaların koleksiyonu.
✔️ Özel bir sınıflandırıcının eğitimi için en az two
ayrı sınıflar ve sınıf başına en az five
belge örneği gerekir. Model yanıtı, tanımlanan belge sınıflarının her biri için sayfa aralıklarını içerir.
✔️ İzin verilen en fazla sınıf sayısıdır 1,000
. Sınıf başına izin verilen en fazla belge örneği sayısıdır 100
.
Model, belirtilmediği sürece giriş belgesinin her sayfasını etiketlenmiş veri kümesindeki sınıflardan birine sınıflandırır. Giriş belgesinde analiz etmek için sayfa numaralarını da belirtebilirsiniz. Uygulamanızın eşiğini ayarlamak için yanıttan güvenilirlik puanını kullanın.
Özel modellerle, sınıflandırıcınızı mevcut bir sınıf için yeni örneklerle güncelleştirmek veya yeni sınıflar eklemek için eğitim veri kümesine erişimi korumanız gerekir. Sınıflandırıcı modelleri artık mevcut bir sınıflandırıcıya başvurabileceğiniz ve mevcut bir sınıf için yeni örnekler ekleyebileceğiniz veya örneklerle yeni sınıflar ekleyebileceğiniz artımlı eğitimi destekliyor. Artımlı eğitim, veri saklamanın zor olduğu ve sınıflandırıcının değişen iş gereksinimleriyle uyumlu olacak şekilde güncelleştirilmesi gereken senaryolara olanak tanır. Artımlı eğitim, API sürümü v4.0 2024-11-30 (GA)
ile eğitilen modellerle desteklenir.
Önemli
Artımlı eğitim yalnızca aynı API sürümüyle eğitilen modellerde desteklenir. Modeli genişletmeye çalışıyorsanız, modeli genişletmek için özgün modelin eğitildiği API sürümünü kullanın. Artımlı eğitim yalnızca API sürümü v4.0 2024-11-30 (GA) veya sonraki sürümlerde desteklenir.
Artımlı eğitim için özgün model kimliğini olarak baseClassifierId
sağlamanız gerekir. Artımlı eğitimi kullanma hakkında daha fazla bilgi edinmek için bkz. artımlı eğitim.
Artık sınıflandırıcıları PDF, resimler, Word, PowerPoint ve Excel gibi çeşitli biçimlerde belge türlerini tanıyacak şekilde eğitebilirsiniz. Eğitim veri kümenizi derlerken desteklenen türlerden herhangi birinin belgelerini ekleyebilirsiniz. Sınıflandırıcı, belirli türleri açıkça etiketlemenizi gerektirmez. En iyi uygulama olarak, modelin genel doğruluğunu geliştirmek için eğitim veri kümenizde her biçimin en az bir örneğine sahip olduğundan emin olun.
Özel sınıflandırma modeli bazı senaryolarda oluşturulan modelin yerini alabilir, ancak dikkat edilmesi gereken birkaç fark vardır:
Özellik | Özel sınıflandırıcı işlemi | Oluşturulan model işlemi |
---|---|---|
Ayıklama modeli işleme için eğitilen türlerden birine ait bilinmeyen türde tek bir belgeyi analiz edin. | ● Birden çok arama gerektirir. ● Belge sınıfına göre sınıflandırma modelini çağırın. Bu adım, ayıklama modeli analizini çağırmadan önce güvenilirlik tabanlı bir denetime olanak tanır. ● Ayıklama modelini çağırın. |
● Giriş belgesi türüne karşılık gelen modeli içeren bir oluşturulmuş modele tek bir çağrı gerektirir. |
Ayıklama modeli işleme için eğitilen çeşitli türlere ait bilinmeyen türde tek bir belgeyi analiz edin. | ●Birden çok arama gerektirir. ● Ayıklama için belirlenen bir türle eşleşmeyen belgeleri yoksayan sınıflandırıcıya bir çağrı yapın. ● Ayıklama modelini çağırın. |
● Oluşturulan bir modele tek bir çağrı gerektirir. Hizmet, oluşturulan model içinde en yüksek eşleşmeye sahip özel bir model seçer. ● Oluşturulan bir model belgeleri yoksayamaz. |
Ayıklama modeli işleme için eğitilen türlerden birine ait, bilinen veya bilinmeyen türde birden çok belge içeren bir dosyayı analiz edin. | ● Birden çok arama gerektirir. ● Giriş dosyasında tanımlanan her belge için ayıklama modelini çağırın. ● Ayıklama modelini çağırın. |
● Oluşturulan bir modele tek bir çağrı gerektirir. ● Oluşturulan model, belgenin ilk örneğinde bileşen modelini bir kez çağırır. ●Kalan belgeler yoksayılır. |
Sınıflandırma modelleri şu anda yalnızca İngilizce belgeleri desteklemektedir.
Sınıflandırma modelleri artık farklı dillerdeki belgeler üzerinde eğitilebilir. Tam liste için desteklenen dillere bakın.
Desteklenen dosya biçimleri:
Model | Görüntü:jpeg/jpg , png , bmp , tiff , , heif |
Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx) |
|
---|---|---|---|
Okundu | ✔ | ✔ | ✔ |
Düzen | ✔ | ✔ | ✔ |
Genel Belge | ✔ | ✔ | |
Önceden oluşturulmuş | ✔ | ✔ | |
Özel ayıklama | ✔ | ✔ | |
Özel sınıflandırma | ✔ | ✔ | ✔ (stüdyoda desteklenmez) |
En iyi sonuçlar için belge türü başına beş net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.
Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI
) olan yaklaşık 8
-point metnine karşılık gelir.
Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.
Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 25.000 sayfa ile 2 GB'tır.
Bir dosyada birden fazla belgeniz olduğunda, sınıflandırıcı giriş dosyasında bulunan farklı belge türlerini tanımlayabilir. Sınıflandırıcı yanıtı, bir dosyanın içinde yer alan tanımlanan belge türlerinin her biri için sayfa aralıklarını içerir. Bu yanıt, aynı belge türünün birden çok örneğini içerebilir.
İşlem analyze
artık bölme davranışı üzerinde ayrıntılı denetim sağlayan bir splitMode
özellik içerir.
none
ayarlayın. Bunu yaptığınızda, hizmet giriş dosyasının tamamı için yalnızca bir sınıf döndürür.perPage
ayarlayın. Hizmet, her sayfayı tek bir belge olarak sınıflandırmaya çalışır.auto
değerini olarak ayarlayın; hizmet belgeleri ve ilişkili sayfa aralıklarını tanımlar.Özel sınıflandırma modelleri eğitmek için sınıf başına en az beş örnek gerektirir. Sınıflar benzerse, ek eğitim örnekleri eklemek model doğruluğunu artırır.
Sınıflandırıcı her belgeyi sınıflardan birine atamayı dener. Modelin eğitim veri kümesinin parçası olan sınıflarda bulunmayan belge türlerini görmesini bekliyorsanız, sınıflandırma puanında bir eşik ayarlamayı veya bir sınıfa "other"
belge türlerinin birkaç temsili örneğini eklemeyi planlamanız gerekir.
"other"
Sınıf eklemek, gerekli olmayan belgelerin sınıflandırıcı kalitenizi etkilememesini sağlar.
Özel sınıflandırma modelleri v4.0 2024-11-30 (GA) API'sinde desteklenir. Document Intelligence Studio , özel sınıflandırıcıyı etkileşimli olarak eğitmek için kod içermeyen bir kullanıcı arabirimi sağlar. Başlamak için nasıl yapılır kılavuzunu izleyin.
REST API kullanırken, belgelerinizi klasörlere göre düzenlerseniz, sınıflandırma modelini eğitmek için isteğin özelliğini kullanabilirsiniz azureBlobSource
.
https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/deed-of-trust/"
}
}
}
}
https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/deed-of-trust/"
}
}
}
}
Alternatif olarak, düz bir dosya listeniz varsa veya modeli eğitmek için her klasörde yalnızca birkaç seçme dosyası kullanmayı planlıyorsanız, modeli eğitmek için özelliğini kullanabilirsiniz azureBlobFileListSource
. Bu adım için JSON Çizgileri biçiminde bir file list
gerekir. Her sınıf için, eğitim için gönderilecek dosyaların listesini içeren yeni bir dosya ekleyin.
{
"classifierId": "demo2",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/car-maint.jsonl"
}
},
"cc-auth": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/cc-auth.jsonl"
}
},
"deed-of-trust": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/deed-of-trust.jsonl"
}
}
}
}
Örnek olarak, dosya listesi car-maint.jsonl
aşağıdaki dosyaları içerir.
{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}
Not
v4.0 2024-11-30 (GA) özel sınıflandırma modeli, bir modelin yerinde üzerine yazmayı destekler.
Artık özel sınıflandırmayı yerinde güncelleştirebilirsiniz. Modelin üzerine doğrudan yazmak, mevcut modeli değiştirmeyi seçmeden önce model kalitesini karşılaştırma olanağınızı kaybedersiniz. Özellik istek gövdesinde açıkça belirtildiğinde model üzerine yazmaya izin verilir allowOverwrite
. Bu eylem gerçekleştirildikten sonra üzerine yazılan özgün modeli kurtarmak mümkün değildir.
{
"classifierId": "existingClassifierName",
"allowOverwrite": true, // Default=false
...
}
Not
Özel sınıflandırma v4.0 2024-11-30 (GA) modeli, bir modelin aşağıdaki bölgelerden herhangi birine kopyalanmasını destekler:
Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.
Aşağıdaki HTTP isteği, hedef kaynağınızdan kopyalama yetkilendirmesini alır. Hedef kaynağınızın uç noktasını ve anahtarını üst bilgi olarak girmeniz gerekir.
POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Request body
{
"classifierId": "targetClassifier",
"description": "Target classifier description"
}
Kopyayı başlatmak için gereken JSON yükünü içeren yanıt gövdesine sahip bir 200
yanıt kodu alırsınız.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Aşağıdaki HTTP isteği, kaynak kaynakta kopyalama işlemini başlatır. Kaynak kaynağınızın uç noktasını ve anahtarını URL ve üst bilgi olarak girmeniz gerekir. İstek URL'sinin kopyalamak istediğiniz kaynak sınıflandırıcının sınıflandırıcı kimliğini içerdiğine dikkat edin.
POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
İsteğinizin gövdesi, önceki adımda verilen yanıttır.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Belge sınıflandırma modeliyle bir giriş dosyasını analiz edin.
https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
API, v4.0 2024-11-30 (GA)
istekteki sorgu parametresini kullanarak pages
giriş belgesinden analiz etmek için sayfalar belirtmenizi sağlar.
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31
Yanıt, yanıtın belgeler bölümünde ilişkili sayfa aralıklarıyla tanımlanan belgeleri içerir.
{
...
"documents": [
{
"docType": "formA",
"boundingRegions": [
{ "pageNumber": 1, "polygon": [...] },
{ "pageNumber": 2, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{ "pageNumber": 3, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
}, ...
]
}
Özel sınıflandırma modelleri oluşturmayı öğrenin:
Ekinlikler
17 Mar 21 - 21 Mar 10
Diğer geliştiriciler ve uzmanlarla gerçek dünyadaki kullanım örneklerini temel alan ölçeklenebilir yapay zeka çözümleri oluşturmak için toplantı serisine katılın.
Hemen kaydolunEğitim
Modül
Önceden oluşturulmuş Belge zekası modellerini kullanma - Training
Önceden oluşturulmuş Forms Analyzer modellerini seçerek hangi verileri çözümleyebileceğinizi ve bu modellerin belge zekası çözümünde nasıl dağıtılacağı hakkında bilgi edinin.
Sertifikasyon
Microsoft Sertifikalı: Azure Veri Bilimcisi İş Ortağı - Certifications
Python, Azure Machine Learning ve MLflow ile veri alımını ve hazırlığını, model eğitimini ve dağıtımlarını ve makine öğrenmesi çözümü izlemeyi yönetin.
Belgeler
Özel sınıflandırıcı oluşturma ve eğitma - Belge Zekası - Azure AI services
Özel bir belge sınıflandırma modelini etiketlemeyi ve oluşturmayı öğrenin.
Belge Zekası artımlı sınıflandırıcılarını kullanma - Azure AI services
Mevcut sınıflara yeni örnekler ekleyerek veya yeni sınıflar ekleyerek özel sınıflandırıcıları artımlı olarak eğitin.
Özel belge modelleri - Belge Zekası - Azure AI services
Belgeleriniz için özelleştirilmiş modelleri etiketleyip eğitin ve tek bir model tanımlayıcısı halinde birden çok model oluşturabilirsiniz.