Azure Form Tanıma düzen modeli
Bu makale:Form Tanıma v3.0 için geçerlidir. Önceki sürüm:Form Tanıma v2.1
Bu makale:Form Tanıma v2.1 için geçerlidir. Sonraki sürüm:Form Tanıma v3.0
Form Tanıma düzen modeli, Form Tanıma bulutta kullanılabilen gelişmiş bir makine öğrenmesi tabanlı belge analizi API'dir. Belgeleri çeşitli biçimlerde almanıza ve belgelerin yapılandırılmış veri gösterimlerini döndürmenize olanak tanır. Metinleri, tabloları, seçim işaretlerini ve belge yapısını ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerimizin gelişmiş bir sürümünü derin öğrenme modelleriyle birleştirir.
Belge düzeni analizi
Belge yapısı düzeni analizi, ilgilendiğiniz bölgeleri ve bunların ilişkileri arasındaki ilişkileri ayıklamak için belgeyi analiz etme işlemidir. Amaç, daha iyi anlamsal anlayış modelleri oluşturmak için sayfadan metin ve yapısal öğeleri ayıklamaktır. Metnin belge düzeninde oynadığı iki tür rol vardır:
- Geometrik roller: Metin, tablolar ve seçim işaretleri geometrik rollere örnektir.
- Mantıksal roller: Başlıklar, başlıklar ve alt bilgiler mantıksal rol örnekleridir.
Aşağıdaki çizimde örnek bir sayfanın görüntüsündeki tipik bileşenler gösterilmektedir.
Form Tanıma Studio ile işlenen örnek form
Dağıtım seçenekleri
Aşağıdaki araçlar Form Tanıma v3.0 tarafından desteklenir:
Özellik | Kaynaklar | Model Kimliği |
---|---|---|
Düzen modeli | önceden oluşturulmuş düzen |
Giriş gereksinimleri
En iyi sonuçları elde için belge başına tek bir net fotoğraf veya yüksek kaliteli tarama sağlayın.
Desteklenen dosya biçimleri:
Modelleme PDF Resim:
JPEG/JPG, PNG, BMP ve TIFFMicrosoft Office:
Word (DOCX), Excel (XLS), PowerPoint (PPT) ve HTMLOkuma ✔ ✔ ✱ REST API sürümü 2022/06/30-preview
Layout ✔ ✔ Genel Belge ✔ ✔ Önceden oluşturulmuş ✔ ✔ Özel ✔ ✔ ✱ Microsoft Office dosyaları şu anda diğer modeller veya sürümler için desteklenmemektedir.
PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
Belgeleri analiz etmek için dosya boyutu ücretli (S0) katmanı için 500 MB'tan az ve ücretsiz (F0) katmanı için 4 MB'tan az olmalıdır.
Görüntü boyutları 50 x 50 piksel ile 10.000 piksel x 10.000 piksel arasında olmalıdır.
PDF boyutları, Yasal veya A3 kağıt boyutuna karşılık gelen 17 x 17 inç veya daha küçüktür.
PDF’leriniz parola korumalıysa göndermeden önce kilidi kaldırmanız gerekir.
Ayıklanacak metnin en düşük yüksekliği 1024 x 768 piksel görüntü için 12 pikseldir. Bu boyut, inç başına 150 nokta (DPI) olan yaklaşık 8 noktalı metne karşılık gelir.
Özel model eğitimi için eğitim verileri için en fazla sayfa sayısı, özel şablon modeli için 500 ve özel sinir modeli için 50.000'dir.
Özel model eğitimi için eğitim verilerinin toplam boyutu şablon modeli için 50 MB ve sinir modeli için 1G-MB'tır.
- Desteklenen dosya biçimleri: JPEG, PNG, PDF ve TIFF
- PDF ve TIFF için en fazla 2000 sayfa işlenir. Ücretsiz katman aboneleri için yalnızca ilk iki sayfa işlenir.
- Dosya boyutu 50 MB'tan az ve boyutlar en az 50 x 50 piksel ve en çok 10.000 x 10.000 piksel olmalıdır.
Düzen ayıklamayı deneyin
Metin, tablo, tablo üst bilgileri, seçim işaretleri ve yapı bilgileri gibi verilerin Form Tanıma kullanılarak belgelerden nasıl ayıklandığına bakın. Aşağıdaki kaynaklara ihtiyacınız olacaktır:
Azure aboneliği— ücretsiz olarak bir abonelik oluşturabilirsiniz
Azure portal bir Form Tanıma örneği. Hizmeti denemek için ücretsiz fiyatlandırma katmanını (
F0
) kullanabilirsiniz. Kaynağınız dağıtıldıktan sonra anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.
Form Tanıma Studio
Not
Form Tanıma Studio, v3.0 API'siyle kullanılabilir.
Form Tanıma Studio ile işlenen örnek form
Form Tanıma Studio giriş sayfasında Düzen'i seçin
Örnek belgeyi analiz edebilir veya + Ekle düğmesini seçerek kendi örneğinizi karşıya yükleyebilirsiniz.
Çözümle düğmesini seçin:
Form Tanıma Örnek Etiketleme aracı
Form Tanıma örnek aracına gidin.
Örnek araç giriş sayfasında Metni, tabloları ve seçim işaretlerini almak için Düzeni Kullan'ı seçin.
Form tanıma hizmeti uç noktası alanına, Form Tanıma aboneliğinizle elde ettiğiniz uç noktayı yapıştırın.
Anahtar alanına, Form Tanıma kaynağınızdan aldığınız anahtarı yapıştırın.
Kaynak alanında açılan menüden URL'yi seçin Örnek belgemizi kullanabilirsiniz:
Getir düğmesini seçin.
Düzeni Çalıştır'ı seçin. Form Tanıma Örnek Etiketleme aracı, Düzeni Çözümle API'sini çağırır ve belgeyi analiz eder.
Sonuçları görüntüleme - ayıklanan vurgulanmış metne, seçim işaretlerinin algılandığına ve tabloların algılandığına bakın.
Desteklenen belge türleri
Modelleme | Görüntüler | TIFF | |
---|---|---|---|
Layout | ✓ | ✓ | ✓ |
Desteklenen diller ve yerel ayarlar
Desteklenen el yazısı ve basılı dillerin tam listesi için bkz. Dil Desteği.
Veri ayıklama
v3.0 GA'dan başlayarak, paragrafları ve başlıklar, bölüm başlıkları, sayfa üst bilgisi, sayfa alt bilgisi, sayfa numarası ve dipnot gibi daha fazla yapı bilgisini belge sayfasından ayıklar. Bu yapısal öğeler, önceki bölümde açıklanan mantıksal rol örnekleridir. Bu özellik PDF belgeleri ve görüntüleri (JPG, PNG, BMP, TIFF) için desteklenir.
Modelleme | Metin | Seçim İşaretleri | Tablolar | Paragraf | Mantıksal roller |
---|---|---|---|---|---|
Layout | ✓ | ✓ | ✓ | ✓ | ✓ |
Paragraflar için desteklenen mantıksal roller: Paragraf rolleri en iyi yapılandırılmamış belgelerde kullanılır. Paragraf rolleri, daha iyi anlamsal arama ve analiz için ayıklanan içeriğin yapısını analize yardımcı olur.
- başlık
- sectionHeading
- Dipnot
- Pageheader
- pageFooter
- Pagenumber
Veri ayıklama
Modelleme | Metin | Tablolar | Seçim işaretleri |
---|---|---|---|
Layout | ✓ | ✓ | ✓ |
Aşağıdaki araçlar Form Tanıma v2.1 tarafından desteklenir:
Özellik | Kaynaklar |
---|---|
Düzen API'si |
Model ayıklama
Düzen modeli belgelerinizden metin, seçim işaretleri, tablolar, paragraflar ve paragraf türlerini (roles
) ayıklar.
Paragraf ayıklama
Düzen modeli, koleksiyondaki paragraphs
tanımlanan tüm metin bloklarını altında analyzeResults
en üst düzey nesne olarak ayıklar. Bu koleksiyondaki her giriş bir metin bloğunu temsil eder ve ayıklanan metni ve sınırlayıcı polygon
koordinatları içerircontent
. Bilgiler, span
belgedeki tam metni içeren en üst düzey content
özellik içindeki metin parçasını gösterir.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Paragraf rolleri
Yeni makine öğrenmesi tabanlı sayfa nesnesi algılama, başlıklar, bölüm başlıkları, sayfa üst bilgileri, sayfa alt bilgileri ve daha fazlası gibi mantıksal rolleri ayıklar. Form Tanıma Düzeni modeli, koleksiyondaki paragraphs
belirli metin bloklarını özel rolleri veya model tarafından tahmin edilen türleriyle atar. Daha zengin bir anlam analizi için ayıklanan içeriğin düzenini anlamanıza yardımcı olması için en iyi şekilde yapılandırılmamış belgelerle birlikte kullanılırlar. Aşağıdaki paragraf rolleri desteklenir:
Tahmin edilen rol | Açıklama |
---|---|
title |
Sayfadaki ana başlıklar |
sectionHeading |
Sayfada bir veya daha fazla alt başlık |
footnote |
Sayfanın alt kısmındaki metin |
pageHeader |
Sayfanın üst kenarına yakın metin |
pageFooter |
Sayfanın alt kenarına yakın metin |
pageNumber |
Sayfa numarası |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Sayfa ayıklama
Pages koleksiyonu, hizmet yanıtında gördüğünüz ilk nesnedir.
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": [],
"kind": "document"
}
]
Metin satırları ve sözcük ayıklama
Form Tanıma'daki belge düzeni modeli, ve olarak lines
words
yazdırılacak ve el yazısıyla yazılmış stil metnini ayıklar. Model, sınırlayıcı polygon
koordinatlar ve confidence
ayıklanan sözcükler için çıkışlar oluşturur. Koleksiyon, styles
algılanırsa satırlar için el yazısıyla yazılmış herhangi bir stili ve ilişkili metne işaret eden aralıkları içerir. Bu özellik desteklenen el yazısı diller için geçerlidir.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
Seçim işaretleri ayıklama
Düzen modeli, belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri her sayfa için koleksiyon içinde pages
görünür. Sınırlayıcı polygon
, confidence
ve seçimini state
(selected/unselected
içerirler). Ayıklanan tüm ilişkili metinler başlangıç dizini (offset
) olarak da eklenir ve length
belgedeki tam metni içeren en üst düzey content
özelliğe başvurur.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
Belgelerden ve görüntülerden tablo ayıklama
Tabloları ayıklamak, genellikle tablo olarak biçimlendirilmiş büyük hacimli verileri içeren belgeleri işlemek için önemli bir gereksinimdir. Düzen modeli, JSON çıkışının pageResults
bölümündeki tabloları ayıklar. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı çokgenli her hücre, bir olarak columnHeader
tanınıp tanınmadığıyla ilgili bilgilerle birlikte çıkıştır. Model, döndürülen tabloları ayıklamayı destekler. Her tablo hücresi satır ve sütun dizinini ve sınırlayıcı çokgen koordinatlarını içerir. Hücre metni için model, başlangıç dizinini span
(offset
) içeren bilgileri verir. Model, belgeden length
tam metni içeren üst düzey içerik içinde de çıkışını verir.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
Metin çizgileri için el yazısı stili (yalnızca Latin dilleri)
Yanıt, her metin satırının el yazısı stilinde olup olmadığını sınıflandırmayı ve güvenilirlik puanını içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte örnek bir JSON kod parçacığı gösterilmektedir.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Seçili sayfaları belgelerden ayıklar
Çok sayfalı büyük belgelerde, metin ayıklama için belirli sayfa numaralarını veya sayfa aralıklarını belirtmek için sorgu parametresini kullanın pages
.
Doğal okuma sırası çıkışı (yalnızca Latin)
Sorgu parametresiyle readingOrder
metin satırlarının çıkış sırasını belirtebilirsiniz. Aşağıdaki örnekte gösterildiği gibi daha insan dostu okuma sırası çıkışı için kullanın natural
. Bu özellik yalnızca Latin dilleri için desteklenir.
Metin ayıklama için sayfa numaralarını veya aralıkları seçme
Çok sayfalı büyük belgelerde, metin ayıklama için belirli sayfa numaralarını veya sayfa aralıklarını belirtmek için sorgu parametresini kullanın pages
. Aşağıdaki örnekte, her iki durumda da metin ayıklanmış 10 sayfalı bir belge gösterilmektedir: tüm sayfalar (1-10) ve seçili sayfalar (3-6).
Çözümle Düzenini Al Sonucu işlemi
İkinci adım, Çözümle Düzeni Sonucunu Al işlemini çağırmaktır. Bu işlem, Giriş olarak Düzeni Çözümle işlemi tarafından oluşturulan Sonuç Kimliğini alır. Aşağıdaki olası değerleri içeren bir durum alanı içeren bir JSON yanıtı döndürür.
Alan | Tür | Olası değerler |
---|---|---|
durum | string | notStarted : Çözümleme işlemi başlatılmadı.running : Çözümleme işlemi devam ediyor.failed : Çözümleme işlemi başarısız oldu.succeeded : Çözümleme işlemi başarılı oldu. |
Değeri döndürene kadar bu işlemi yinelemeli olarak çağırın succeeded
. Saniye başına istek (RPS) hızını aşmamak için 3 ila 5 saniyelik bir aralık kullanın.
Durum alanında succeeded
değer olduğunda, JSON yanıtı ayıklanan düzeni, metni, tabloları ve seçim işaretlerini içerir. Ayıklanan veriler ayıklanan metin satırlarını ve sözcükleri, sınırlayıcı kutuları, el yazısı göstergeli metin görünümünü, tabloları ve seçili/seçili olmayan işaretleriyle seçim işaretlerini içerir.
Metin satırları için el yazısı sınıflandırma (yalnızca Latin)
Yanıt, her metin satırının el yazısı stilinde olup olmadığını sınıflandırmayı ve güvenilirlik puanını içerir. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnekte, görüntüdeki metnin el yazısı sınıflandırması gösterilmektedir.
Örnek JSON çıkışı
Çözümle Düzeni Sonucunu Al işlemine verilen yanıt, belgenin tüm bilgilerin ayıklandığı yapılandırılmış bir gösterimidir. Örnek belge dosyası ve yapılandırılmış çıktı örneği düzen çıktısı için buraya bakın.
JSON çıkışının iki bölümü vardır:
readResults
düğüm tanınan tüm metinleri ve seçim işaretlerini içerir. Metin, sayfaya, ardından satıra ve ardından tek tek sözcüklere göre düzenlenir.pageResults
düğüm, sınırlayıcı kutularıyla ayıklanan tabloları ve hücreleri, güveni ve "readResults" içindeki satır ve sözcüklere başvuruyu içerir.
Örnek Çıkış
Metin
Düzen API'si, birden çok metin açısına ve renge sahip belgelerden ve görüntülerden metin ayıklar. Belge, faks, basılı ve/veya el yazısı (yalnızca İngilizce) metin ve karma mod fotoğraflarını kabul eder. Metin satırlar, sözcükler, sınırlayıcı kutular, güvenilirlik puanları ve stil (el yazısı veya diğer) ile sağlanan bilgilerle ayıklanır. Tüm metin bilgileri JSON çıkışının bölümüne eklenir readResults
.
Üst bilgi içeren tablolar
Düzen API'si, JSON çıkışının pageResults
bölümündeki tabloları ayıklar. Belgeler taranabilir, fotoğraflanabilir veya dijitalleştirilebilir. Tablolar, kenarlıklı veya kenarlıksız ve tek açılı birleştirilmiş hücre veya sütunlarla karmaşık olabilir. Ayıklanan tablo bilgileri sütun ve satır sayısını, satır aralığını ve sütun aralığını içerir. Sınırlayıcı kutusu olan her hücre, üst bilginin parçası olarak tanınıp tanınmadığıyla ilgili bilgilerle birlikte çıkıştır. Modelde tahmin edilen üst bilgi hücreleri birden çok satıra yayılabilir ve tablodaki ilk satırlar olmayabilir. Ayrıca döndürülmüş tablolarla da çalışırlar. Her tablo hücresi, bölümdeki tek tek sözcüklere readResults
başvurular içeren tam metni de içerir.
Seçim işaretleri
Düzen API'si belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutuyu, güveni ve durumu (seçili/seçili değil) içerir. Seçim işareti bilgileri JSON çıkışının readResults
bölümünde ayıklanır.
Geçiş kılavuzu
- Uygulamalarınızda ve iş akışlarınızda v3.0 sürümünü kullanmayı öğrenmek için Form Tanıma v3.0 geçiş kılavuzumuzu izleyin.
Sonraki adımlar
Form Tanıma Studio ile kendi formlarınızı ve belgelerinizi işlemeyi öğrenin
Form Tanıma hızlı başlangıcı tamamlayın ve seçtiğiniz geliştirme dilinde belge işleme uygulaması oluşturmaya başlayın.
Form Tanıma Örnek Etiketleme aracıylakendi formlarınızı ve belgelerinizi işlemeyi öğrenin
Form Tanıma hızlı başlangıcı tamamlayın ve seçtiğiniz geliştirme dilinde belge işleme uygulaması oluşturmaya başlayın.