Aracılığıyla paylaş


Belge Yönetim Bilgileri özel sınıflandırma modeli

Önemli

  • Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar. Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
  • Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-07-31-preview'dır.
  • Genel önizleme sürümü 2024-07-31-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir. AI Studio'daki özel oluşturucu (belge alanı ayıklama) modelinin yalnızca Orta Kuzey ABD bölgesinde kullanılabildiğini unutmayın:
    • Doğu ABD
    • Batı ABD2
    • Batı Avrupa
    • Orta Kuzey ABD

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürüm: mavi onay işareti v3.1 (GA)

Bu içerik şunlar için geçerlidir: Checkmark v3.1 (GA) | En son sürüm: mor onay işareti v4.0 (önizleme)

Önemli

  • 2024-07-31-preview API, özel sınıflandırma modeli, analiz işlemi sırasında belgeleri varsayılan olarak bölmez.
  • Önceki sürümlerden davranışı korumak için özelliğini açıkça otomatik olarak ayarlamanız splitMode gerekir. için splitMode varsayılan değeridir none.
  • Giriş dosyanız birden çok belge içeriyorsa, öğesini olarak ayarlayarak bölmeyi splitMode autoetkinleştirmeniz gerekir.

Azure AI Document Intelligence, akıllı belge işleme çözümleri oluşturmanıza olanak tanıyan bulut tabanlı bir Azure AI hizmetidir. Belge Yönetim Bilgileri API'leri çeşitli içeriği, düzeni, stili ve anlamsal öğeleri ayıklamak ve algılamak için görüntüleri, PDF'leri ve diğer belge dosyalarını analiz edin.

Özel sınıflandırma modelleri, uygulamanızda işlediğiniz belgeleri doğru bir şekilde algılamak ve tanımlamak için düzen ve dil özelliklerini birleştiren derin öğrenme modeli türleridir. Özel sınıflandırma modelleri, bir giriş dosyasının sınıflandırmasını, içindeki belgeleri tanımlamak için tek seferde bir sayfa yapar ve ayrıca bir giriş dosyasındaki tek bir belgenin birden çok örneğini veya birden çok belgeyi tanımlayabilir.

Model özellikleri

Not

  • API'den 2024-02-29-preview başlayarak özel clasification modelleri artımlı eğitimi destekler. Mevcut sınıflara yeni örnekler ekleyebilir veya var olan bir sınıflandırıcıya başvurarak yeni sınıflar ekleyebilirsiniz.

Özel sınıflandırma modelleri, eğitilen belge türlerinden herhangi birinin bir giriş dosyasında yer alan olup olmadığını belirlemek için tek veya çok dosyalı belgeleri analiz edebilir. Şu anda desteklenen senaryolar şunlardır:

  • Kredi başvuru formu gibi tek bir belge türü içeren tek bir dosya.

  • Birden çok belge türü içeren tek bir dosya. Örneğin, kredi başvuru formu, ödeme ve banka ekstresi içeren bir kredi uygulama paketi.

  • Aynı belgenin birden çok örneğini içeren tek bir dosya. Örneğin, taranan faturaların koleksiyonu.

✔️ Özel bir sınıflandırıcının eğitimi için en az two ayrı sınıflar ve sınıf başına en az five belge örneği gerekir. Model yanıtı, tanımlanan belge sınıflarının her biri için sayfa aralıklarını içerir.

✔️ İzin verilen en fazla sınıf sayısıdır 500. Sınıf başına izin verilen en fazla belge örneği sayısıdır 100.

Model, belirtilmediği sürece giriş belgesinin her sayfasını etiketlenmiş veri kümesindeki sınıflardan birine sınıflandırır. Giriş belgesinde analiz etmek için sayfa numaralarını da belirtebilirsiniz. Uygulamanızın eşiğini ayarlamak için yanıttan güvenilirlik puanını kullanın.

Artımlı eğitim

Özel modellerle, sınıflandırıcınızı mevcut bir sınıf için yeni örneklerle güncelleştirmek veya yeni sınıflar eklemek için eğitim veri kümesine erişimi korumanız gerekir. Sınıflandırıcı modelleri artık mevcut bir sınıflandırıcıya başvurabileceğiniz ve mevcut bir sınıf için yeni örnekler ekleyebileceğiniz veya örneklerle yeni sınıflar ekleyebileceğiniz artımlı eğitimi destekliyor. Artımlı eğitim, veri saklamanın zor olduğu ve sınıflandırıcının değişen iş gereksinimleriyle uyumlu olacak şekilde güncelleştirilmesi gereken senaryolara olanak tanır. Artımlı eğitim, API sürümü ve sonraki sürümlerle 2024-02-29-preview eğitilen modellerde desteklenir.

Önemli

Artımlı eğitim yalnızca aynı API sürümüyle eğitilen modellerde desteklenir. Modeli genişletmeye çalışıyorsanız, modeli genişletmek için özgün modelin eğitildiği API sürümünü kullanın. Artımlı eğitim yalnızca API sürüm 2024-07-31-preview veya sonraki sürümlerde desteklenir.

Artımlı eğitim için özgün model kimliğini olarak baseClassifierIdsağlamanız gerekir. Artımlı eğitimi kullanma hakkında daha fazla bilgi edinmek için bkz. artımlı eğitim.

Office belge türü desteği

Artık sınıflandırıcıları PDF, resimler, Word, PowerPoint ve Excel gibi çeşitli biçimlerde belge türlerini tanıyacak şekilde eğitebilirsiniz. Eğitim veri kümenizi derlerken desteklenen türlerden herhangi birinin belgelerini ekleyebilirsiniz. Sınıflandırıcı, belirli türleri açıkça etiketlemenizi gerektirmez. En iyi uygulama olarak, modelin genel doğruluğunu geliştirmek için eğitim veri kümenizde her biçimin en az bir örneğine sahip olduğundan emin olun.

Özel sınıflandırma ve oluşturulan modelleri karşılaştırma

Özel sınıflandırma modeli bazı senaryolarda oluşturulan modelin yerini alabilir, ancak dikkat edilmesi gereken birkaç fark vardır:

Özellik Özel sınıflandırıcı işlemi Oluşturulan model işlemi
Ayıklama modeli işleme için eğitilen türlerden birine ait bilinmeyen türde tek bir belgeyi analiz edin. ● Birden çok arama gerektirir.
● Belge sınıfına göre sınıflandırma modelini çağırın. Bu adım, ayıklama modeli analizini çağırmadan önce güvenilirlik tabanlı bir denetime olanak tanır.
● Ayıklama modelini çağırın.
● Giriş belgesi türüne karşılık gelen modeli içeren bir oluşturulmuş modele tek bir çağrı gerektirir.
Ayıklama modeli işleme için eğitilen çeşitli türlere ait bilinmeyen türde tek bir belgeyi analiz edin. ●Birden çok arama gerektirir.
● Ayıklama için belirlenen bir türle eşleşmeyen belgeleri yoksayan sınıflandırıcıya bir çağrı yapın.
● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir. Hizmet, oluşturulan model içinde en yüksek eşleşmeye sahip özel bir model seçer.
● Oluşturulan bir model belgeleri yoksayamaz.
Ayıklama modeli işleme için eğitilen türlerden birine ait, bilinen veya bilinmeyen türde birden çok belge içeren bir dosyayı analiz edin. ● Birden çok arama gerektirir.
● Giriş dosyasında tanımlanan her belge için ayıklama modelini çağırın.
● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir.
● Oluşturulan model, belgenin ilk örneğinde bileşen modelini bir kez çağırır.
●Kalan belgeler yoksayılır.

Dil desteği

Sınıflandırma modelleri şu anda yalnızca İngilizce belgeleri desteklemektedir.

Sınıflandırma modelleri artık farklı dillerdeki belgeler üzerinde eğitilebilir. Tam liste için desteklenen dillere bakın.

Giriş gereksinimleri

Desteklenen dosya biçimleri:

Model PDF Görüntü:
jpeg/jpg, png, bmp, tiff, , heif
Microsoft Office:
Word (docx), Excel (xlxs), PowerPoint (pptx)
Okundu
Düzen ✔ (2024-02-29-preview, 2023-10-31-preview ve üzeri)
Genel Belge
Önceden oluşturulmuş
Özel ayıklama
Özel sınıflandırma
  • En iyi sonuçlar için belge türü başına beş net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8-point metnine karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

  • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

  • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 1 GB'tır.

Belge bölme

Bir dosyada birden fazla belgeniz olduğunda, sınıflandırıcı giriş dosyasında bulunan farklı belge türlerini tanımlayabilir. Sınıflandırıcı yanıtı, bir dosyanın içinde yer alan tanımlanan belge türlerinin her biri için sayfa aralıklarını içerir. Bu yanıt, aynı belge türünün birden çok örneğini içerebilir.

İşlem analyze artık bölme davranışı üzerinde ayrıntılı denetim sağlayan bir splitMode özellik içerir.

  • Giriş dosyasının tamamını sınıflandırma için tek bir belge olarak işlemek için splitMode değerini olarak noneayarlayın. Bunu yaptığınızda, hizmet giriş dosyasının tamamı için yalnızca bir sınıf döndürür.
  • Giriş dosyasının her sayfasını sınıflandırmak için splitMode değerini olarak perPageayarlayın. Hizmet, her sayfayı tek bir belge olarak sınıflandırmaya çalışır.
  • splitMode auto değerini olarak ayarlayın; hizmet belgeleri ve ilişkili sayfa aralıklarını tanımlar.

En iyi yöntemler

Özel sınıflandırma modelleri eğitmek için sınıf başına en az beş örnek gerektirir. Sınıflar benzerse, ek eğitim örnekleri eklemek model doğruluğunu artırır.

Sınıflandırıcı her belgeyi sınıflardan birine atamayı dener. Modelin eğitim veri kümesinin parçası olan sınıflarda bulunmayan belge türlerini görmesini bekliyorsanız, sınıflandırma puanında bir eşik ayarlamayı veya bir sınıfa "other" belge türlerinin birkaç temsili örneğini eklemeyi planlamanız gerekir. "other" Sınıf eklemek, gerekli olmayan belgelerin sınıflandırıcı kalitenizi etkilememesini sağlar.

Model eğitma

Özel sınıflandırma modelleri v4.0: 2024-02-29-preview, 2024-07-31-preview ve v3.1: 2023-07-31 (GA) API'leri tarafından desteklenir. Document Intelligence Studio , özel sınıflandırıcıyı etkileşimli olarak eğitmek için kod içermeyen bir kullanıcı arabirimi sağlar. Başlamak için nasıl yapılır kılavuzunu izleyin.

REST API kullanırken, belgelerinizi klasörlere göre düzenlerseniz, sınıflandırma modelini eğitmek için isteğin özelliğini kullanabilirsiniz azureBlobSource .


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Alternatif olarak, düz bir dosya listeniz varsa veya modeli eğitmek için her klasörde yalnızca birkaç seçme dosyası kullanmayı planlıyorsanız, modeli eğitmek için özelliğini kullanabilirsiniz azureBlobFileListSource . Bu adım için JSON Çizgileri biçiminde bir file list gerekir. Her sınıf için, eğitim için gönderilecek dosyaların listesini içeren yeni bir dosya ekleyin.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Örnek olarak, dosya listesi car-maint.jsonl aşağıdaki dosyaları içerir.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Modelin üzerine yazma

Not

API'den 2024-07-31-preview başlayarak, özel sınıflandırma modelleri bir modelin yerinde üzerine yazmayı destekler.

Artık özel sınıflandırmayı yerinde güncelleştirebilirsiniz. Modelin üzerine doğrudan yazmak, mevcut modeli değiştirmeyi seçmeden önce model kalitesini karşılaştırma olanağınızı kaybedersiniz. Özellik istek gövdesinde açıkça belirtildiğinde model üzerine yazmaya izin verilir allowOverwrite . Bu eylem gerçekleştirildikten sonra üzerine yazılan özgün modeli kurtarmak mümkün değildir.



{
  "classifierId": "existingClassifierName",
  "allowOverwrite": true,  // Default=false
  ...
}

Modeli kopyalama

Not

API'den 2024-07-31-preview başlayarak, özel sınıflandırma modelleri modelin aşağıdaki bölgelerden herhangi birine kopyalanmasını destekler:

  • Doğu ABD
  • Batı ABD2
  • Batı Avrupa

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

Kopyalama yetkilendirme isteği oluşturma

Aşağıdaki HTTP isteği, hedef kaynağınızdan kopyalama yetkilendirmesini alır. Hedef kaynağınızın uç noktasını ve anahtarını üst bilgi olarak girmeniz gerekir.

POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-07-31-preview
Ocp-Apim-Subscription-Key: {<your-key>}

Request body

{
  "classifierId": "targetClassifier",
  "description": "Target classifier description"
}

Kopyayı başlatmak için gereken JSON yükünü içeren yanıt gövdesine sahip bir 200 yanıt kodu alırsınız.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Kopyalama işlemini başlatma

Aşağıdaki HTTP isteği, kaynak kaynakta kopyalama işlemini başlatır. Kaynak kaynağınızın uç noktasını ve anahtarını URL ve üst bilgi olarak girmeniz gerekir. İstek URL'sinin kopyalamak istediğiniz kaynak sınıflandırıcının sınıflandırıcı kimliğini içerdiğine dikkat edin.

POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-07-31-preview
Ocp-Apim-Subscription-Key: {<your-key>}

İsteğinizin gövdesi, önceki adımda verilen yanıttır.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Model yanıtı

Belge sınıflandırma modeliyle bir giriş dosyasını analiz edin.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview

API'den başlayarak, istekteki 2024-07-31-preview sorgu parametresini kullanarak pages giriş belgesinden analiz etmek için sayfalar belirtebilirsiniz.

https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Yanıt, yanıtın belgeler bölümünde ilişkili sayfa aralıklarıyla tanımlanan belgeleri içerir.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Sonraki adımlar

Özel sınıflandırma modelleri oluşturmayı öğrenin: