Belge Zekası genel belge modeli
Önemli
Belge Yönetim Bilgileri sürümleri 2024-02-29-preview, 2023-10-31-preview ve bundan sonra genel belge modeli (önceden oluşturulmuş belge) kullanım dışı bırakılmıştır. Belgelerden anahtar-değer çiftlerini, seçim işaretlerini, metinleri, tabloları ve yapıyı ayıklamak için aşağıdaki modelleri kullanın:
Özellik | sürüm | Model Kimliği |
---|---|---|
Layout isteğe bağlı sorgu dizesi parametresinin features=keyValuePairs etkinleştirildiği model. |
• v4:2024-02-29-preview • v3.1:2023-07-31 (GA) |
prebuilt-layout |
Genel belge modeli | • v3.1:2023-07-31 (GA) • v3.0:2022-08-31 (GA) • v2.1 (GA) |
prebuilt-document |
Bu içerik şunlar için geçerlidir: v3.1 (GA) | En son sürüm: v4.0 (önizleme) | Önceki sürüm: v3.0
Bu içerik şunlar için geçerlidir: v3.0 (GA) | En son sürümler: v4.0 (önizleme) v3.1
Genel belge modeli, belgelerden anahtar-değer çiftlerini, tabloları ve seçim işaretlerini ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerini derin öğrenme modelleri ile birleştirir. Genel belge v3.1 ve v3.0 API'leriyle kullanılabilir. Daha fazla bilgi için bkz. Geçiş kılavuzumuz.
Genel belge özellikleri
Genel belge modeli önceden eğitilmiş bir modeldir; etiket veya eğitim gerektirmez.
Tek bir API belgelerden anahtar-değer çiftlerini, seçim işaretlerini, metinleri, tabloları ve yapıyı ayıklar.
Genel belge modeli yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış belgeleri destekler.
Seçim işaretleri veya
:unselected:
değerine:selected:
sahip alanlar olarak tanımlanır.
Document Intelligence Studio'da işlenen örnek belge
Anahtar-değer çifti ayıklama
Genel belge API'si çoğu form türünü destekler ve belgelerinizi analiz eder, anahtarları ve ilişkili değerleri ayıklar. Belgelerden ortak anahtar-değer çiftlerini ayıklamak için idealdir. Özel modeli etiketler olmadan eğitmek için alternatif olarak genel belge modelini kullanabilirsiniz.
Dağıtım seçenekleri
Document Intelligence v3.1 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Genel belge modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
önceden oluşturulmuş belge |
Document Intelligence v3.0 aşağıdaki araçları, uygulamaları ve kitaplıkları destekler:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Genel belge modeli | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
önceden oluşturulmuş belge |
Giriş gereksinimleri
Desteklenen dosya biçimleri:
Model PDF Resim: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLOkundu ✔ ✔ ✔ Düzen ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Genel Belge ✔ ✔ Önceden oluşturulmuş ✔ ✔ Özel ayıklama ✔ ✔ Özel sınıflandırma ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
PDF ve TIFF için en fazla 2.000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katman için 500 MB ve
4
ücretsiz (F0) katman için MB'tır.Görüntü boyutları 50 piksel x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, yaklaşık 150 nokta/inç (DPI) nokta metnine karşılık gelir
8
.Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı özel şablon modeli için 500, özel sinir modeli için 50.000'dir.
Özel ayıklama modeli eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve
1
sinir modeli için GB'tır.Özel sınıflandırma modeli eğitimi için eğitim verilerinin toplam boyutu en fazla 10.000 sayfa ile GB'tır
1
. 2024-07-31-preview ve üzeri sürümler için eğitim verilerinin toplam boyutu gb ve en fazla 10.000 sayfadır2
.
Genel belge modeli veri ayıklama
Document Intelligence Studio'yu kullanarak formlardan ve belgelerden veri ayıklamayı deneyin.
Aşağıdaki kaynaklara ihtiyacınız vardır:
Azure aboneliği: Ücretsiz olarak bir abonelik oluşturabilirsiniz.
Azure portalında bir Belge Zekası örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (
F0
) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Not
Document Intelligence Studio ve genel belge modeli v3.0 API'siyle kullanılabilir.
Document Intelligence Studio giriş sayfasında Genel belgeler'i seçin.
Örnek belgeyi analiz edebilir veya kendi dosyalarınızı karşıya yükleyebilirsiniz.
Analizi çalıştır düğmesini seçin ve gerekirse Çözümle seçeneklerini yapılandırın:
Document Intelligence Studio'yu deneyin.
Anahtar değer çiftleri
Anahtar-değer çiftleri, belge içinde bir etiketi veya anahtarı ve ilişkili yanıtını veya değerini tanımlayan belirli aralıklardır. Yapılandırılmış bir formda, bu çiftler etiket ve kullanıcının bu alan için girdiği değer olabilir. Yapılandırılmamış bir belgede, bir paragraftaki metne göre sözleşmenin yürütülme tarihi olabilir. Yapay zeka modeli, çok çeşitli belge türlerine, biçimlere ve yapılara göre tanımlanabilir anahtarları ve değerleri ayıklamak için eğitilir.
Model bir anahtarın mevcut olduğunu algıladığında, ilişkili değer olmadan veya isteğe bağlı alanları işlerken de anahtarlar yalıtılabilir. Örneğin, bazı durumlarda ikinci ad alanı formda boş bırakılabilir. Anahtar-değer çiftleri, belgede yer alan metinlerin yayılma alanlarıdır. Aynı değerin müşteri/kullanıcı gibi farklı şekillerde açıklandığı belgeler için, ilişkili anahtar müşteri veya kullanıcıdır (bağlama göre).
Veri ayıklama
Model | Metin ayıklama | Anahtar-Değer çiftleri | Seçim İşaretleri | Tablolar | Ortak Adlar |
---|---|---|---|---|---|
Genel belge | ✓ | ✓ | ✓ | ✓ | ✓* |
✓* - Yalnızca (v3.1 GA) ve sonraki API sürümlerinde kullanılabilir 2023-07-31
.
Desteklenen diller ve yerel ayarlar
Desteklenen dillerin tam listesi için Dil Desteği— belge çözümleme modelleri sayfamıza bakın.
Dikkat edilmesi gereken noktalar
Anahtarlar, belgeden ayıklanan metnin yayılma alanları olduğundan, yarı yapılandırılmış belgeler için anahtarların var olan bir anahtar sözlüğüne eşlenmesi gerekir.
Anahtar-değer çiftlerini bir anahtarla görmeyi bekler, ancak değer görmez. Örneğin, bir kullanıcı formda bir e-posta adresi sağlamamayı seçtiyse.