Aracılığıyla paylaş


Belge Zekası genel belge modeli

Önemli

Belge Yönetim Bilgileri sürümleri 2024-02-29-preview, 2023-10-31-preview ve bundan sonra genel belge modeli (önceden oluşturulmuş belge) kullanım dışı bırakılmıştır. Belgelerden anahtar-değer çiftlerini, seçim işaretlerini, metinleri, tabloları ve yapıyı ayıklamak için aşağıdaki modelleri kullanın:

Özellik sürüm Model Kimliği
Layout isteğe bağlı sorgu dizesi parametresinin features=keyValuePairs etkinleştirildiği model. • v4:2024-02-29-preview
• v3.1:2023-07-31 (GA)
prebuilt-layout
Genel belge modeli • v3.1:2023-07-31 (GA)
• v3.0:2022-08-31 (GA)
• v2.1 (GA)
prebuilt-document

Bu içerik şunlar için geçerlidir: Checkmark v3.1 (GA) | En son sürüm: mor onay işareti v4.0 (önizleme) | Önceki sürüm: mavi onay işareti v3.0

Bu içerik şunlar için geçerlidir: Checkmark v3.0 (GA) | En son sürümler:mor onay işareti v4.0 (önizleme)mor onay işareti v3.1

Genel belge modeli, belgelerden anahtar-değer çiftlerini, tabloları ve seçim işaretlerini ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerini derin öğrenme modelleri ile birleştirir. Genel belge v3.1 ve v3.0 API'leriyle kullanılabilir. Daha fazla bilgi için bkz. Geçiş kılavuzumuz.

Genel belge özellikleri

  • Genel belge modeli önceden eğitilmiş bir modeldir; etiket veya eğitim gerektirmez.

  • Tek bir API belgelerden anahtar-değer çiftlerini, seçim işaretlerini, metinleri, tabloları ve yapıyı ayıklar.

  • Genel belge modeli yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgeleri destekler.

  • Seçim işaretleri veya :unselected:değerine :selected: sahip alanlar olarak tanımlanır.

Document Intelligence Studio'da işlenen örnek belge

Document Intelligence Studio'daki genel belge analizinin ekran görüntüsü.

Anahtar-değer çifti ayıklama

Genel belge API'si çoğu form türünü destekler ve belgelerinizi analiz eder, anahtarları ve ilişkili değerleri ayıklar. Belgelerden ortak anahtar-değer çiftlerini ayıklamak için idealdir. Özel modeli etiketler olmadan eğitmek için alternatif olarak genel belge modelini kullanabilirsiniz.

Dağıtım seçenekleri

Document Intelligence v3.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:

Özellik Kaynaklar Model Kimliği
Genel belge modeli Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
önceden oluşturulmuş belge

Document Intelligence v3.0 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:

Özellik Kaynaklar Model Kimliği
Genel belge modeli Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
önceden oluşturulmuş belge

Giriş gereksinimleri

  • Desteklenen dosya biçimleri:

    Model PDF Resim:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Okundu
    Düzen ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Genel Belge
    Önceden oluşturulmuş
    Özel ayıklama
    Özel sınıflandırma ✔ (2024-07-31-preview, 2024-02-29-preview)
  • En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.

  • PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).

  • Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve 4 ücretsiz (F0) katman için MB'tır.

  • Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.

  • PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.

  • Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir 8 .

  • Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.

    • Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve 1 sinir modeli için GB'tır.

    • Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır 1 . 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır 2 .

Genel belge modeli veri ayıklama

Document Intelligence Studio'yu kullanarak formlardan ve belgelerden veri ayıklamayı deneyin.

Aşağıdaki kaynaklara ihtiyacınız vardır:

Azure portalında anahtarların ve uç nokta konumunun ekran görüntüsü.

Not

Document Intelligence Studio ve genel belge modeli v3.0 API'siyle kullanılabilir.

  1. Document Intelligence Studio giriş sayfasında Genel belgeler'i seçin.

  2. Örnek belgeyi analiz edebilir veya kendi dosyalarınızı karşıya yükleyebilirsiniz.

  3. Analizi çalıştır düğmesini seçin ve gerekirse Çözümle seçeneklerini yapılandırın:

    Document Intelligence Studio'da Çözümlemeyi çalıştır ve Çözümle seçenekleri düğmelerinin ekran görüntüsü.

Anahtar değer çiftleri

Anahtar-değer çiftleri, belge içinde bir etiketi veya anahtarı ve ilişkili yanıtını veya değerini tanımlayan belirli aralıklardır. Yapılandırılmış bir formda, bu çiftler etiket ve kullanıcının bu alan için girdiği değer olabilir. Yapılandırılmamış bir belgede, bir paragraftaki metne göre sözleşmenin yürütülme tarihi olabilir. Yapay zeka modeli, çok çeşitli belge türlerine, biçimlere ve yapılara göre tanımlanabilir anahtarları ve değerleri ayıklamak için eğitilir.

Model bir anahtarın mevcut olduğunu algıladığında, ilişkili değer olmadan veya isteğe bağlı alanları işlerken de anahtarlar yalıtılabilir. Örneğin, bazı durumlarda ikinci ad alanı formda boş bırakılabilir. Anahtar-değer çiftleri, belgede yer alan metinlerin yayılma alanlarıdır. Aynı değerin müşteri/kullanıcı gibi farklı şekillerde açıklandığı belgeler için, ilişkili anahtar müşteri veya kullanıcıdır (bağlama göre).

Veri ayıklama

Model Metin ayıklama Anahtar-Değer çiftleri Seçim İşaretleri Tablolar Ortak Adlar
Genel belge ✓*

✓* - Yalnızca (v3.1 GA) ve sonraki API sürümlerinde kullanılabilir 2023-07-31 .

Desteklenen diller ve yerel ayarlar

Desteklenen dillerin tam listesi için Dil Desteği— belge çözümleme modelleri sayfamıza bakın.

Dikkat edilmesi gereken noktalar

  • Anahtarlar, belgeden ayıklanan metnin yayılma alanları olduğundan, yarı yapılandırılmış belgeler için anahtarların var olan bir anahtar sözlüğüne eşlenmesi gerekir.

  • Anahtar-değer çiftlerini bir anahtarla görmeyi bekler, ancak değer görmez. Örneğin, bir kullanıcı formda bir e-posta adresi sağlamamayı seçtiyse.

Sonraki adımlar

  • Uygulamalarınızda ve iş akışlarınızda v3.1 sürümünü kullanmayı öğrenmek için Belge Zekası v3.1 geçiş kılavuzumuzu izleyin.

  • REST API'mizi keşfedin.