Belge Yönetim Bilgileri özel sınıflandırma modeli

Önemli

  • Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar.
  • Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
  • Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-02-29-preview'dır.
  • Genel önizleme sürümü 2024-02-29-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir:
  • Doğu ABD
  • Batı ABD2
  • Batı Avrupa

Bu içerik şunlar için geçerlidir:Checkmarkv4.0 (önizleme) | Önceki sürüm:mavi onay işaretiv3.1 (GA)

Bu içerik:Checkmarkv3.1 (GA) | En son sürüm:mor onay işaretiv4.0 (önizleme) için geçerlidir

Önemli

  • 2024-02-29-preview API, özel sınıflandırma modeli, analiz işlemi sırasında belgeleri varsayılan olarak bölmez.
  • Önceki sürümlerden davranışı korumak için özelliğini açıkça otomatik olarak ayarlamanız splitMode gerekir. için splitMode varsayılan değeridir none.
  • Giriş dosyanız birden çok belge içeriyorsa, öğesini olarak ayarlayarak bölmeyi splitModeautoetkinleştirmeniz gerekir.

Azure AI Document Intelligence, akıllı belge işleme çözümleri oluşturmanıza olanak tanıyan bulut tabanlı bir Azure AI hizmetidir. Belge Yönetim Bilgileri API'leri çeşitli içeriği, düzeni, stili ve anlamsal öğeleri ayıklamak ve algılamak için görüntüleri, PDF'leri ve diğer belge dosyalarını analiz edin.

Özel sınıflandırma modelleri, uygulamanızda işlediğiniz belgeleri doğru bir şekilde algılamak ve tanımlamak için düzen ve dil özelliklerini birleştiren derin öğrenme modeli türleridir. Özel sınıflandırma modelleri, bir giriş dosyasının sınıflandırmasını, içindeki belgeleri tanımlamak için tek seferde bir sayfa yapar ve ayrıca bir giriş dosyasındaki tek bir belgenin birden çok örneğini veya birden çok belgeyi tanımlayabilir.

Model özellikleri

Not

  • API'den 2024-02-29-preview başlayarak özel clasification modelleri artımlı eğitimi destekler. Mevcut sınıflara yeni örnekler ekleyebilir veya var olan bir sınıflandırıcıya başvurarak yeni sınıflar ekleyebilirsiniz.

Özel sınıflandırma modelleri, eğitilen belge türlerinden herhangi birinin bir giriş dosyasında yer alan olup olmadığını belirlemek için tek veya çok dosyalı belgeleri analiz edebilir. Şu anda desteklenen senaryolar şunlardır:

  • Tek bir belge içeren tek bir dosya. Örneğin, bir ödünç verme başvuru formu.

  • Birden çok belge içeren tek bir dosya. Örneğin, kredi başvuru formu, ödeme ve banka ekstresi içeren bir kredi uygulama paketi.

  • Aynı belgenin birden çok örneğini içeren tek bir dosya. Örneğin, taranan faturaların koleksiyonu.

✔️ Özel bir sınıflandırıcının eğitimi için en az two ayrı sınıflar ve sınıf başına en az five belge örneği gerekir. Model yanıtı, tanımlanan belge sınıflarının her biri için sayfa aralıklarını içerir.

✔️ İzin verilen en fazla sınıf sayısıdır 500. Sınıf başına izin verilen en fazla belge örneği sayısıdır 100.

Model, giriş belgesinin her sayfasını etiketlenmiş veri kümesindeki sınıflardan birine sınıflandırır. Uygulamanızın eşiğini ayarlamak için yanıttan güvenilirlik puanını kullanın.

Artımlı eğitim

Özel modellerle, sınıflandırıcınızı mevcut bir sınıf için yeni örneklerle güncelleştirmek veya yeni sınıflar eklemek için eğitim veri kümesine erişimi korumanız gerekir. Sınıflandırıcı modelleri artık mevcut bir sınıflandırıcıya başvurabileceğiniz ve mevcut bir sınıf için yeni örnekler ekleyebileceğiniz veya örneklerle yeni sınıflar ekleyebileceğiniz artımlı eğitimi destekliyor. Artımlı eğitim, veri saklamanın zor olduğu ve sınıflandırıcının değişen iş gereksinimleriyle uyumlu olacak şekilde güncelleştirilmesi gereken senaryolara olanak tanır. Artımlı eğitim, API sürümü ve sonraki sürümlerle 2024-02-29-preview eğitilen modellerde desteklenir.

Önemli

Artımlı eğitim yalnızca aynı API sürümüyle eğitilen modellerde desteklenir. Modeli genişletmeye çalışıyorsanız, modeli genişletmek için özgün modelin eğitildiği API sürümünü kullanın. Artımlı eğitim yalnızca API sürüm 2024-02-29-preview veya sonraki sürümlerde desteklenir.

Artımlı eğitim için özgün model kimliğini olarak baseClassifierIdsağlamanız gerekir. Artımlı eğitimi kullanma hakkında daha fazla bilgi edinmek için bkz. artımlı eğitim.

Office belge türü desteği

Artık sınıflandırıcıları PDF, resimler, Word, PowerPoint ve Excel gibi çeşitli biçimlerde belge türlerini tanıyacak şekilde eğitebilirsiniz. Eğitim veri kümenizi derlerken desteklenen türlerden herhangi birinin belgelerini ekleyebilirsiniz. Sınıflandırıcı, belirli türleri açıkça etiketlemenizi gerektirmez. En iyi uygulama olarak, modelin genel doğruluğunu geliştirmek için eğitim veri kümenizde her biçimin en az bir örneğine sahip olduğundan emin olun.

Özel sınıflandırma ve oluşturulan modelleri karşılaştırma

Özel sınıflandırma modeli bazı senaryolarda oluşturulan modelin yerini alabilir, ancak dikkat edilmesi gereken birkaç fark vardır:

Özellik Özel sınıflandırıcı işlemi Oluşturulan model işlemi
Ayıklama modeli işleme için eğitilen türlerden birine ait bilinmeyen türde tek bir belgeyi analiz edin. ● Birden çok arama gerektirir.
● Belge sınıfına göre sınıflandırma modelini çağırın. Bu adım, ayıklama modeli analizini çağırmadan önce güvenilirlik tabanlı bir denetime olanak tanır.
● Ayıklama modelini çağırın.
● Giriş belgesi türüne karşılık gelen modeli içeren bir oluşturulmuş modele tek bir çağrı gerektirir.
Ayıklama modeli işleme için eğitilen çeşitli türlere ait bilinmeyen türde tek bir belgeyi analiz edin. ●Birden çok arama gerektirir.
● Ayıklama için belirlenen bir türle eşleşmeyen belgeleri yoksayan sınıflandırıcıya bir çağrı yapın.
● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir. Hizmet, oluşturulan model içinde en yüksek eşleşmeye sahip özel bir model seçer.
● Oluşturulan bir model belgeleri yoksayamaz.
Ayıklama modeli işleme için eğitilen türlerden birine ait, bilinen veya bilinmeyen türde birden çok belge içeren bir dosyayı analiz edin. ● Birden çok arama gerektirir.
● Giriş dosyasında tanımlanan her belge için ayıklama modelini çağırın.
● Ayıklama modelini çağırın.
● Oluşturulan bir modele tek bir çağrı gerektirir.
● Oluşturulan model, belgenin ilk örneğinde bileşen modelini bir kez çağırır.
●Kalan belgeler yoksayılır.

Dil desteği

Sınıflandırma modelleri şu anda yalnızca İngilizce belgeleri desteklemektedir.

Sınıflandırma modelleri artık farklı dillerdeki belgeler üzerinde eğitilebilir. Tam liste için desteklenen dillere bakın.

Giriş gereksinimleri

Desteklenen dosya biçimleri:

Model PDF Görüntü:
jpeg/jpg, png, bmp, tiff, heif
Microsoft Office:
Word (docx), Excel (xlxs), PowerPoint (pptx)
Okundu
Düzen ✔ (2024-02-29-preview, 2023-10-31-preview ve üzeri)
Genel Belge
Önceden oluşturulmuş
Özel ayıklama
Özel sınıflandırma
  • En iyi sonuçlar için belge türü başına beş net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8-point metnine karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

  • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

  • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile 1 GB'tır.

Belge bölme

Bir dosyada birden fazla belgeniz olduğunda, sınıflandırıcı giriş dosyasında bulunan farklı belge türlerini tanımlayabilir. Sınıflandırıcı yanıtı, bir dosyanın içinde yer alan tanımlanan belge türlerinin her biri için sayfa aralıklarını içerir. Bu yanıt, aynı belge türünün birden çok örneğini içerebilir.

Analiz işlemi artık bölme davranışı üzerinde ayrıntılı denetim sağlayan bir splitMode özellik içerir.

  • Giriş dosyasının tamamını sınıflandırma için tek bir belge olarak işlemek için splitMode değerini olarak noneayarlayın. Bunu yaptığınızda, hizmet giriş dosyasının tamamı için yalnızca bir sınıf döndürür.
  • Giriş dosyasının her sayfasını sınıflandırmak için splitMode değerini olarak perPageayarlayın. Hizmet, her sayfayı tek bir belge olarak sınıflandırmaya çalışır.
  • splitMode auto değerini olarak ayarlayın; hizmet belgeleri ve ilişkili sayfa aralıklarını tanımlar.

En iyi yöntemler

Özel sınıflandırma modelleri eğitmek için sınıf başına en az beş örnek gerektirir. Sınıflar benzerse, ek eğitim örnekleri eklemek model doğruluğunu artırır.

Sınıflandırıcı her belgeyi sınıflardan birine atamayı dener. Modelin eğitim veri kümesinin parçası olan sınıflarda bulunmayan belge türlerini görmesini bekliyorsanız, sınıflandırma puanında bir eşik ayarlamayı veya bir sınıfa "other" belge türlerinin birkaç temsili örneğini eklemeyi planlamanız gerekir. "other" Sınıf eklemek, gerekli olmayan belgelerin sınıflandırıcı kalitenizi etkilememesini sağlar.

Model eğitma

Özel sınıflandırma modelleri v4.0:2024-02-29-preview ve v3.1:2023-07-31 (GA) API'leri tarafından desteklenir. Document Intelligence Studio , özel sınıflandırıcıyı etkileşimli olarak eğitmek için kod içermeyen bir kullanıcı arabirimi sağlar. Başlamak için nasıl yapılır kılavuzunu izleyin.

REST API kullanırken, belgelerinizi klasörlere göre düzenlerseniz, sınıflandırma modelini eğitmek için isteğin özelliğini kullanabilirsiniz azureBlobSource .


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Alternatif olarak, düz bir dosya listeniz varsa veya modeli eğitmek için her klasörde yalnızca birkaç seçme dosyası kullanmayı planlıyorsanız, modeli eğitmek için özelliğini kullanabilirsiniz azureBlobFileListSource . Bu adım için JSON Çizgileri biçiminde bir file listgerekir. Her sınıf için, eğitim için gönderilecek dosyaların listesini içeren yeni bir dosya ekleyin.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Örnek olarak, dosya listesi car-maint.jsonl aşağıdaki dosyaları içerir.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Model yanıtı

Belge sınıflandırma modeliyle bir giriş dosyasını analiz edin.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Yanıt, yanıtın belgeler bölümünde ilişkili sayfa aralıklarıyla tanımlanan belgeleri içerir.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Sonraki adımlar

Özel sınıflandırma modelleri oluşturmayı öğrenin: