Share via


Belge Zekası özel sinir modeli

Önemli

  • Document Intelligence genel önizleme sürümleri, etkin geliştirme aşamasında olan özelliklere erken erişim sağlar.
  • Genel Kullanılabilirlik (GA) öncesinde kullanıcı geri bildirimlerine göre özellikler, yaklaşımlar ve süreçler değişebilir.
  • Belge Zekası istemci kitaplıklarının genel önizleme sürümü varsayılan olarak REST API sürüm 2024-02-29-preview'dır.
  • Genel önizleme sürümü 2024-02-29-preview şu anda yalnızca aşağıdaki Azure bölgelerinde kullanılabilir:
  • Doğu ABD
  • Batı ABD2
  • Batı Avrupa

Bu içerik şunlar için geçerlidir:Checkmark v4.0 (önizleme) | Önceki sürümler:mavi onay işaretiv3.1 (GA)mavi onay işaretiv3.0 (GA)

Bu içerik:Checkmarkv3.1 (GA) | En son sürüm:mor onay işaretiv4.0 (önizleme) | Önceki sürümler:mavi onay işaretiv3.0 için geçerlidir

Bu içerik:Checkmarkv3.0 (GA) | En son sürümler:mor onay işaretiv4.0 (önizleme)mor onay işaretiv3.1 için geçerlidir

Özel sinirsel belge modelleri veya sinir modelleri, belgelerden etiketlenmiş alanları doğru bir şekilde ayıklamak için düzen ve dil özelliklerini birleştiren, derin öğrenilmiş bir model türüdür. Temel özel sinir modeli, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgelerden alan ayıklamak için eğitilmeye uygun hale getiren çeşitli belge türleri üzerinde eğitilir. Özel sinir modelleri v3.0 ve üzeri modellerde kullanılabilir Aşağıdaki tabloda her kategori için yaygın belge türleri listelenmiştir:

Belgeler Örnekler
Yapılandırılmış anketler, anketler
Yarı yapılandırılmış faturalar, satın alma siparişleri
Yapılandırılmamış sözleşmeler, mektuplar

Özel sinir modelleri, özel şablon modelleri ile aynı etiketleme biçimini ve stratejisini paylaşır. Şu anda özel sinir modelleri, özel şablon modelleri tarafından desteklenen alan türlerinin yalnızca bir alt kümesini destekler.

Model özellikleri

Önemli

API sürümü 2024-02-29-preview özel sinir modelleriyle başlayarak çakışan alanlar ve tablo hücresi güveni desteği eklendi.

Özel sinir modelleri şu anda yalnızca anahtar-değer çiftlerini ve seçim işaretlerini ve yapılandırılmış alanları (tablolar) destekler; gelecekteki sürümler imza desteği içerir.

Form alanları Seçim işaretleri Tablosal alanlar İmza Bölge Çakışan alanlar
Desteklenir Desteklenir Desteklenir Desteklenmeyen Desteklenir 1 Desteklenir 2

1 Özel sinir modellerindeki bölge etiketleri, belirtilen bölge için Düzen API'sinden alınan sonuçları kullanır. Bu özellik, herhangi bir değer yoksa eğitim zamanında metin oluşturulan şablon modellerinden farklıdır. 2 Rest API sürümünden 2024-02-29-previewbaşlayarak çakışan alanlar desteklenir. Çakışan alanların bazı sınırları vardır. Daha fazla bilgi için bkz. çakışan alanlar.

Derleme modu

Özel model oluşturma işlemi şablon ve sinir özel modellerini destekler. REST API'nin ve istemci kitaplıklarının önceki sürümleri artık şablon modu olarak bilinen tek bir derleme modunu destekliyor.

Sinir modelleri aynı bilgilere ancak farklı sayfa yapılarına sahip belgeleri destekler. Bu belgelere örnek olarak, aynı bilgileri paylaşan ancak şirketler arasında görünüm olarak farklılık gösterebilen Birleşik Devletler W2 formları verilebilir. Daha fazla bilgi için bkz. Özel model derleme modu.

Desteklenen diller ve yerel ayarlar

Desteklenen dillerin tam listesi için Dil Desteği— özel modeller sayfamıza bakın.

Çakışan alanlar

API 2024-02-29-preview ve sonraki sürümlerinin yayımlanmasıyla birlikte, özel sinir modelleri çakışan alanları destekleyecektir:

Çakışan alanları kullanmak için veri kümenizin beklenen çakışmaya sahip en az bir örnek içermesi gerekir. Bir çakışmayı etiketlemek için bölge etiketlemesini kullanarak her alan için içerik aralıklarının her birini (çakışma ile birlikte) belirleyin. Alan seçimiyle örtüşme etiketleme (bir değeri vurgulama), alan çakışmalarını göstermek için desteklenen tek etiketleme aracı olduğundan stüdyoda başarısız olur. Çakışma desteği şunları içerir:

  • Tam çakışma. Aynı belirteç kümesi iki farklı alan için etiketlenmiştir.
  • Kısmi çakışma. Bazı belirteçler her iki alana da aittir, ancak yalnızca bir alanın veya diğerinin parçası olan belirteçler vardır.

Çakışan alanların bazı sınırları vardır:

  • Herhangi bir belirteç veya sözcük yalnızca iki alan olarak etiketlenebilir.
  • bir tablodaki çakışan alanlar tablo satırlarına yayılamaz.
  • Çakışan alanlar yalnızca veri kümesindeki en az bir örnek bu alanlar için çakışan etiketler içeriyorsa tanınabilir.

Çakışan alanları kullanmak için veri kümenizi çakışanlarla etiketleyip modeli API sürümü 2024-02-29-preview veya üzeriyle eğitin.

Tablosal alanlar tablo, satır ve hücre güvenilirliği ekler

API 2022-06-30-preview ve sonraki sürümlerinin yayımlanmasıyla birlikte, özel sinir modelleri tablo alanlarını (tablolar) destekleyecektir:

  • API sürüm 2022-08-31 veya üzeri ile eğitilen modeller tablosal alan etiketlerini kabul eder.
  • API sürüm 2022-06-30-preview veya üzeri kullanılarak özel sinir modelleri ile analiz edilen belgeler, tablolar arasında toplanan tablosal alanlar oluşturur.
  • Sonuçlar, bir çözümleme işleminin analyzeResult ardından döndürülen nesnenin documents dizisinde bulunabilir.

Tablosal alanlar, varsayılan olarak çapraz sayfa tablolarını destekler:

  • Birden çok sayfaya yayılan bir tabloyu etiketlemek için, tablonun her satırını tek bir tablodaki farklı sayfalar arasında etiketle.
  • En iyi uygulama olarak, veri kümenizin beklenen varyasyonlardan birkaç örnek içerdiğinden emin olun. Örneğin, tüm tablonun tek bir sayfada olduğu ve tabloların iki veya daha fazla sayfayı nereye yayılacağı örneklerini ekleyin.

Tablosal alanlar, tablo olarak tanınmayan bir belge içinde yinelenen bilgileri ayıklarken de yararlıdır. Örneğin, özgeçmişteki iş deneyimlerinin yinelenen bir bölümü tablosal alan olarak etiketlenebilir ve ayıklanabilir.

Tablosal alanlar, API'den 2024-02-29-preview başlayarak tablo, satır ve hücre güvenilirliği sağlar:

  • Düzeltildi veya dinamik tablolar aşağıdaki öğeler için güvenilirlik desteği ekler:

    • Tablo güveni, tablonun tamamının ne kadar doğru tanınıldığını gösteren bir ölçüdür.
    • Satır güveni, tek bir satırın tanınma ölçüsü.
    • Hücre güvenilirliği, tek bir hücrenin tanıma ölçüsüdür.
  • Önerilen yaklaşım, önce tablodan, ardından satırdan ve sonra hücreden başlayarak doğruluğu yukarıdan aşağıya doğru gözden geçirmektir.

Tablo, satır ve hücre güvenilirliği hakkında daha fazla bilgi edinmek için güvenilirlik ve doğruluk puanlarına bakın.

Desteklenen bölgeler

18 Ekim 2022 itibarıyla, Document Intelligence özel sinir modeli eğitimi bir sonraki bildirime kadar yalnızca aşağıdaki Azure bölgelerinde kullanılabilir olacaktır:

  • Doğu Avustralya
  • Güney Brezilya
  • Orta Kanada
  • Orta Hindistan
  • Central US
  • Doğu Asya
  • Doğu ABD
  • Doğu ABD 2
  • Orta Fransa
  • Doğu Japonya
  • Orta Güney ABD
  • Güneydoğu Asya
  • Güney Birleşik Krallık
  • West Europe
  • Batı ABD 2
  • US Gov Arizona
  • US Gov Virginia

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

İpucu

Listelenen belirli bölgelerden birinde eğitilen bir modeli başka bir bölgeye kopyalayabilir ve uygun şekilde kullanabilirsiniz.

Modeli başka bir bölgeye kopyalamak için REST API'yi veya Document Intelligence Studio'yu kullanın.

Giriş gereksinimleri

  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) ve HTML
    Okundu
    Düzen ✔ (2024-02-29-preview, 2023-10-31-preview veya üzeri)
    Genel Belge
    Önceden oluşturulmuş
    Özel nöral

    ✱ Microsoft Office dosyaları şu anda diğer modeller veya sürümler için desteklenmiyor.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve ücretsiz (F0) katmanı için 4 MB'tır.

  • Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta olan yaklaşık 8nokta metnine karşılık gelir.

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

  • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.

  • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfadır 1GB .

En iyi yöntemler

Özel sinir modelleri, özel şablon modellerinden birkaç farklı şekilde farklılık gösterir. Özel şablon veya model, etiketlenmiş verileri ayıklamak için tutarlı bir görsel şablonu kullanır. Özel sinir modelleri, alanları ayıklamak için yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgeleri destekler. İki model türü arasında seçim yaparken bir sinir modeliyle başlayın ve işlev gereksinimlerinizi destekleyip desteklemediğini belirlemek için test edin.

Çeşitlemelerle ilgilenme

Özel sinir modelleri tek bir belge türünün farklı biçimlerinde genelleştirebilir. En iyi yöntem olarak, belge türünün tüm varyasyonları için tek bir model oluşturun. Eğitim veri kümesine farklı varyasyonların her biri için en az beş etiketli örnek ekleyin.

Alan adlandırma

Verileri etiketlediğinizde, değerle ilgili alanı etiketlemek ayıklanan anahtar-değer çiftlerinin doğruluğunu artırır. Örneğin, sağlayıcı kimliğini içeren bir alan değeri için alanı supplier_id adlandırmayı göz önünde bulundurun. Alan adları belgenin dilinde olmalıdır.

Bitişik değerleri etiketleme

Bir alanın değer belirteçleri/sözcükleri şu değerlerden biri olmalıdır:

  • Diğer alanlarla kesişmeden, doğal okuma sırasında art arda sıralanmış olarak
  • Diğer alanları kapsamaz bir bölgede

Temsili veriler

Eğitim vakalarındaki değerler çeşitli ve temsili olmalıdır. Örneğin, bir alanın adı date ise, bu alanın değerleri bir tarih olmalıdır. Rastgele bir dize gibi yapay değer model performansını etkileyebilir.

Geçerli Sınırlamalar

  • Özel sinir modeli sayfa sınırları arasında bölünmüş değerleri tanımaz.
  • Özel bir sinir modelini eğitmek için özel şablon modelleri için etiketlenmiş bir veri kümesi kullanılırsa, özel sinirsel desteklenmeyen alan türleri yoksayılır.
  • Özel sinir modelleri ayda 20 derleme işlemiyle sınırlıdır. Sınırın artırılmasını istiyorsanız bir destek isteği açın. Daha fazla bilgi için bkz . Belge Yönetim Bilgileri hizmeti kotaları ve sınırları.

Model eğitma

Özel sinir modelleri v3.0 ve üzeri modellerde kullanılabilir.

Belge Türü REST API SDK Modelleri Etiketleme ve Test Et
Özel belge Belge Yönetim Bilgileri 3.1 Belge Yönetim Bilgileri SDK'sı Belge Makine Zekası Stüdyosu

Modeli eğitmek için derleme işlemi, özel bir buildMode sinir modelini eğitmek için yeni bir özelliği destekler ve olarak ayarlayın buildModeneural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Sonraki adımlar

Özel modeller oluşturmayı ve oluşturmayı öğrenin: